Google DeepMind entwickelt V2A, das Ton für KI-Videos erzeugt

Cryptopolitan · 2024-06-18T21:03:03.000Z

DeepMind, Googles KI-Forschungslabor, hat bekannt gegeben, dass es an einem KI-Tool namens V2A arbeitet, das Ton und Dialog für KI-generierte Videos erstellen kann. V2A, die Abkürzung für Video-to-Audio, verwendet textbasierte Eingabeaufforderungen und Videopixel, um Dialoge, Musik und Soundeffekte für Videos zu generieren. Lesen Sie auch: Google DeepMind stellt TacticAI vor: Revolutionierung der Fußballtaktik Laut DeepMind entsprechen die generierten Soundeffekte und die Musik dem beabsichtigten Ton und den Charakteren des Videos. DeepMind erklärte weiter, dass die Technologie dazu beitragen könne, KI-generierten Videos mehr Leben einzuhauchen.

DeepMind, výzkumná laboratoř společnosti Google pro umělou inteligenci, odhalila, že pracuje na nástroji umělé inteligence známém jako V2A, který dokáže vytvářet zvuk a dialogy pro videa generovaná umělou inteligencí. V2A, což je zkratka pro video-to-audio, používá textové výzvy a obrazové pixely ke generování dialogů, hudby a zvukových efektů pro videa.
Čtěte také: Google DeepMind představuje TacticAI: Revolutionizing Soccer Tactics
Podle DeepMind generované zvukové efekty a hudba odpovídají zamýšlenému tónu a postavám videa. DeepMind dále vysvětlil, že tato technologie by mohla pomoci oživit videa generovaná AI.
V2A porovnává zvuk se scénami videa
Zatímco technologie generování zvuku není nic nového, DeepMind tvrdí, že její nástroj V2A je první svého druhu, který automaticky přiřazuje zvuk k videu.
„Modely generování videa postupují neuvěřitelným tempem, ale mnoho současných systémů dokáže generovat pouze tichý výstup,“ napsal DeepMind v příspěvku na blogu.
„Tréninkem v oblasti videa, zvuku a dalších anotací se naše technologie učí spojovat konkrétní zvukové události s různými vizuálními scénami a zároveň reagovat na informace poskytnuté v anotacích nebo přepisech.“
DeepMind.
Společnost dodala, že její technologie je automatická, na rozdíl od časově náročného ručního zarovnání, které vyžaduje úpravu zvuků, videí a časování.
Podle DeepMind lze nástroj V2A použít ke generování neomezeného počtu zvukových stop pro libovolný video výstup. Pozitivní výzva může být „definována tak, aby vedla generovaný výstup směrem k požadovaným zvukům, nebo negativní výzva, která jej odvedla od nežádoucích zvuků“.
„Tato flexibilita dává uživatelům větší kontrolu nad výstupem V2A, což umožňuje rychle experimentovat s různými zvukovými výstupy a vybrat si tu nejlepší shodu,“ uvedla společnost.
Sdílíme pokrok v naší generativní technologii video-to-audio (V2A). 🎥
Může přidat zvuk do tichých klipů, které odpovídají akustice scény, doprovázet akci na obrazovce a další.
Zde jsou 4 příklady – zapněte si zvuk. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
– Google DeepMind (@GoogleDeepMind) 17. června 2024
Hluboká mysl nepohnutá konkurencí
Nejnovější inovace přichází, když chce DeepMind upevnit svou dominanci v oboru. Začátkem tohoto roku dosáhla britská firma ElevenLabs, která vyrábí hlasové generátory pro umělou inteligenci, milníku poté, co její kolo financování série B vygenerovalo 80 milionů dolarů, čímž společnost podle Verdictu ohodnotila více než 1 miliardu dolarů.
Společnost říká, že její uživatelé vytvořili více než 100 let zvuku. Tvrdí také, že jeho audio software v současné době používá 41 % společností žebříčku Fortune 500.
Čtěte také: Google DeepMind vs. OpenAI: Závod v generování AI videa se zahřívá
Navzdory této konkurenci DeepMind naznačil, že s uvolněním technologie veřejnosti nespěchá.
„Než zvážíme otevření přístupu pro širší veřejnost, naše technologie V2A projde přísným bezpečnostním hodnocením a testováním,“ uvedla společnost.
DeepMind také uvedl, že V2A je spárovatelný s modely pro generování videa, jako je Veo, což pomáhá vytvářet realistické zvukové efekty.
Cryptopolitan zpravodajství Enacy Mapakame

Google DeepMind vyvíjí V2A, která vytváří zvuk pro AI videa

Prozkoumat více od tvůrce

Nejnovější zprávy