Google DeepMind développe une V2A qui crée du son pour les vidéos IA

Cryptopolitan · 2024-06-18T21:03:03.000Z

DeepMind, le laboratoire de recherche en IA de Google, a révélé qu'il travaillait sur un outil d'IA connu sous le nom de V2A, capable de créer du son et des dialogues pour les vidéos générées par l'IA. V2A, qui signifie vidéo vers audio, utilise des invites textuelles et des pixels vidéo pour générer des dialogues, de la musique et des effets sonores pour les vidéos. A lire aussi : Google DeepMind présente TacticAI : révolutionner les tactiques de football Selon DeepMind, les effets sonores et la musique générés correspondent au ton et aux personnages prévus de la vidéo. DeepMind a en outre expliqué que la technologie pourrait contribuer à donner plus de vie aux vidéos générées par l'IA.

DeepMind, laboratorul de cercetare AI al Google a dezvăluit că lucrează la un instrument AI cunoscut sub numele de V2A, care poate crea sunet și dialog pentru videoclipurile generate de AI. V2A, care înseamnă video-to-audio, folosește instrucțiuni bazate pe text și pixeli video pentru a genera dialog, muzică și efecte sonore pentru videoclipuri.
Citește și: Google DeepMind introduce TacticAI: Revoluționarea tacticilor de fotbal
Potrivit DeepMind, efectele sonore și muzica generate se potrivesc cu tonul și caracterele dorite ale videoclipului. DeepMind a explicat în continuare că tehnologia ar putea ajuta să aducă mai multă viață videoclipurilor generate de inteligență artificială.
V2A potrivește scenele audio cu scenele video
În timp ce tehnologia de generare audio nu este nimic nou, DeepMind susține că instrumentul său V2A este primul de acest gen, care potrivește automat audio cu video.
„Modelele de generare video avansează într-un ritm incredibil, dar multe sisteme actuale pot genera numai rezultate silențioase”, a scris DeepMind într-o postare pe blog.
„Prin antrenamentul video, audio și adnotările suplimentare, tehnologia noastră învață să asocieze evenimente audio specifice cu diverse scene vizuale, răspunzând în același timp la informațiile furnizate în adnotări sau transcrieri.”
DeepMind.
Compania a adăugat că tehnologia sa este automată, spre deosebire de alinierea manuală care necesită mult timp, care necesită ajustarea sunetelor, videoclipurilor și cronometrajelor.
Potrivit DeepMind, instrumentul V2A poate fi folosit pentru a genera un număr nelimitat de coloane sonore pentru orice ieșire video. Un prompt pozitiv poate fi „definit pentru a ghida ieșirea generată către sunetele dorite, sau un prompt negativ pentru a o îndepărta de sunetele nedorite”.
„Această flexibilitate oferă utilizatorilor mai mult control asupra ieșirii V2A, făcând posibilă experimentarea rapidă cu diferite ieșiri audio și alegerea celei mai bune potriviri”, a spus compania.
Împărtășim progresul în ceea ce privește tehnologia noastră generativă video-la-audio (V2A). 🎥
Poate adăuga sunet clipurilor silențioase care se potrivesc cu acustica scenei, poate însoți acțiunea de pe ecran și multe altele.
Iată 4 exemple - porniți-vă sunetul. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17 iunie 2024
Mintea adâncă nemișcată de concurență
Cea mai recentă inovație vine în momentul în care DeepMind dorește să-și consolideze dominația în industrie. La începutul acestui an, firma britanică de generatoare de voce AI ElevenLabs a atins o piatră de hotar după ce runda sa de finanțare din seria B a generat 80 de milioane de dolari, evaluând compania la peste 1 miliard de dolari, potrivit Verdict.
Compania spune că utilizatorii săi au generat peste 100 de ani de sunet. De asemenea, susține că software-ul său audio este utilizat în prezent de 41% dintre companiile Fortune 500.
Citește și: Google DeepMind vs. OpenAI: The Race in AI Video Generation Heats Up
În ciuda acestei competiții, DeepMind a indicat că nu se grăbesc să lanseze tehnologia publicului.
„Înainte de a lua în considerare deschiderea accesului publicului larg, tehnologia noastră V2A va fi supusă unor evaluări și teste riguroase de siguranță”, a spus compania.
DeepMind a mai indicat că V2A poate fi asociat cu modele de generație video precum Veo, ceea ce ajută la crearea de efecte sonore realiste.
Raportare Cryptopolitan de Enacy Mapakame

Google DeepMind dezvoltă V2A care creează sunet pentru videoclipurile AI

Explorați mai multe de la acest creator

Ultimele știri