DeepMind, laboratorul de cercetare AI al Google a dezvăluit că lucrează la un instrument AI cunoscut sub numele de V2A, care poate crea sunet și dialog pentru videoclipurile generate de AI. V2A, care înseamnă video-to-audio, folosește instrucțiuni bazate pe text și pixeli video pentru a genera dialog, muzică și efecte sonore pentru videoclipuri.

Citește și: Google DeepMind introduce TacticAI: Revoluționarea tacticilor de fotbal

Potrivit DeepMind, efectele sonore și muzica generate se potrivesc cu tonul și caracterele dorite ale videoclipului. DeepMind a explicat în continuare că tehnologia ar putea ajuta să aducă mai multă viață videoclipurilor generate de inteligență artificială.

V2A potrivește scenele audio cu scenele video

În timp ce tehnologia de generare audio nu este nimic nou, DeepMind susține că instrumentul său V2A este primul de acest gen, care potrivește automat audio cu video.

„Modelele de generare video avansează într-un ritm incredibil, dar multe sisteme actuale pot genera numai rezultate silențioase”, a scris DeepMind într-o postare pe blog.

„Prin antrenamentul video, audio și adnotările suplimentare, tehnologia noastră învață să asocieze evenimente audio specifice cu diverse scene vizuale, răspunzând în același timp la informațiile furnizate în adnotări sau transcrieri.”

DeepMind.

Compania a adăugat că tehnologia sa este automată, spre deosebire de alinierea manuală care necesită mult timp, care necesită ajustarea sunetelor, videoclipurilor și cronometrajelor.

Potrivit DeepMind, instrumentul V2A poate fi folosit pentru a genera un număr nelimitat de coloane sonore pentru orice ieșire video. Un prompt pozitiv poate fi „definit pentru a ghida ieșirea generată către sunetele dorite, sau un prompt negativ pentru a o îndepărta de sunetele nedorite”.

„Această flexibilitate oferă utilizatorilor mai mult control asupra ieșirii V2A, făcând posibilă experimentarea rapidă cu diferite ieșiri audio și alegerea celei mai bune potriviri”, a spus compania.

Împărtășim progresul în ceea ce privește tehnologia noastră generativă video-la-audio (V2A). 🎥

Poate adăuga sunet clipurilor silențioase care se potrivesc cu acustica scenei, poate însoți acțiunea de pe ecran și multe altele.

Iată 4 exemple - porniți-vă sunetul. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 iunie 2024

Mintea adâncă nemișcată de concurență

Cea mai recentă inovație vine în momentul în care DeepMind dorește să-și consolideze dominația în industrie. La începutul acestui an, firma britanică de generatoare de voce AI ElevenLabs a atins o piatră de hotar după ce runda sa de finanțare din seria B a generat 80 de milioane de dolari, evaluând compania la peste 1 miliard de dolari, potrivit Verdict.

Compania spune că utilizatorii săi au generat peste 100 de ani de sunet. De asemenea, susține că software-ul său audio este utilizat în prezent de 41% dintre companiile Fortune 500.

Citește și: Google DeepMind vs. OpenAI: The Race in AI Video Generation Heats Up

În ciuda acestei competiții, DeepMind a indicat că nu se grăbesc să lanseze tehnologia publicului.

„Înainte de a lua în considerare deschiderea accesului publicului larg, tehnologia noastră V2A va fi supusă unor evaluări și teste riguroase de siguranță”, a spus compania.

DeepMind a mai indicat că V2A poate fi asociat cu modele de generație video precum Veo, ceea ce ajută la crearea de efecte sonore realiste.

Raportare Cryptopolitan de Enacy Mapakame