Google DeepMind izstrādā V2A, kas rada skaņu AI videoklipiem

Google AI pētniecības laboratorija DeepMind ir atklājusi, ka tā strādā pie AI rīka, kas pazīstams kā V2A, kas var radīt skaņu un dialogu AI ģenerētiem videoklipiem. V2A, kas apzīmē video-audio, izmanto teksta uzvednes un video pikseļus, lai ģenerētu dialogu, mūziku un skaņas efektus videoklipiem.
Lasiet arī: Google DeepMind ievieš TacticAI: revolucionizējošo futbola taktiku
Saskaņā ar DeepMind teikto, radītie skaņas efekti un mūzika atbilst paredzētajam video tonim un varoņiem. DeepMind arī paskaidroja, ka šī tehnoloģija varētu palīdzēt AI radītos videoklipos padarīt dzīvāku.
V2A saskaņo audio ar video ainām
Lai gan audio ģenerēšanas tehnoloģija nav nekas jauns, DeepMind apgalvo, ka tā V2A rīks ir pirmais šāda veida rīks, kas automātiski saskaņo audio ar video.
"Video paaudzes modeļi attīstās neticamā tempā, taču daudzas pašreizējās sistēmas var radīt tikai klusu izvadi," emuāra ierakstā rakstīja DeepMind.
"Apmācot video, audio un papildu anotācijas, mūsu tehnoloģija iemācās saistīt konkrētus audio notikumus ar dažādām vizuālām ainām, vienlaikus reaģējot uz informāciju, kas sniegta anotācijās vai atšifrējumos."
DeepMind.
Uzņēmums piebilda, ka tā tehnoloģija ir automātiska, nevis laikietilpīga manuāla izlīdzināšana, kurai nepieciešama skaņas, video un laika pielāgošana.
Saskaņā ar DeepMind, V2A rīku var izmantot, lai ģenerētu neierobežotu skaitu skaņu celiņu jebkurai video izvadei. Pozitīvu uzvedni var "definēt, lai virzītu ģenerēto izvadi uz vēlamajām skaņām, vai negatīvu uzvedni, lai novirzītu to no nevēlamām skaņām."
"Šī elastība sniedz lietotājiem lielāku kontroli pār V2A izvadi, ļaujot ātri eksperimentēt ar dažādām audio izvadēm un izvēlēties labāko atbilstību," sacīja uzņēmums.
Mēs dalāmies ar progresu saistībā ar mūsu video-audio (V2A) ģeneratīvo tehnoloģiju. 🎥
Tas var pievienot skaņu klusajiem klipiem, kas atbilst ainas akustikai, pavada darbību ekrānā un daudz ko citu.
Šeit ir 4 piemēri — ieslēdziet skaņu. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 2024. gada 17. jūnijs
Deepmind nav aizkustināts no konkurences
Jaunākais jauninājums nāk, jo DeepMind vēlas nostiprināt savu dominējošo stāvokli šajā nozarē. Šā gada sākumā Apvienotās Karalistes mākslīgā intelekta balss ģeneratoru uzņēmums ElevenLabs sasniedza pagrieziena punktu pēc tam, kad tā B sērijas finansējuma kārta radīja 80 miljonus ASV dolāru, novērtējot uzņēmuma vērtību vairāk nekā 1 miljardu ASV dolāru, saskaņā ar Verdict.
Uzņēmums saka, ka tā lietotāji ir radījuši vairāk nekā 100 gadu audio. Tā arī apgalvo, ka tās audio programmatūru pašlaik izmanto 41% Fortune 500 uzņēmumu.
Lasiet arī: Google DeepMind pret OpenAI: AI video radīšanas sacīkstes uzkarst
Neskatoties uz šo konkurenci, DeepMind ir norādījis, ka viņi nesteidzas publiskot tehnoloģiju.
"Pirms apsveram iespēju atvērt piekļuvi plašākai sabiedrībai, mūsu V2A tehnoloģijai tiks veikti stingri drošības novērtējumi un testēšana," sacīja uzņēmums.
DeepMind arī norādīja, ka V2A ir savienojams ar video paaudzes modeļiem, piemēram, Veo, kas palīdz radīt reālistiskus skaņas efektus.
Enacy Mapakame kriptopolītiskie ziņojumi
Apskati vairāk satura no autora

Jaunākās ziņas