DeepMind, výzkumná laboratoř společnosti Google pro umělou inteligenci, odhalila, že pracuje na nástroji umělé inteligence známém jako V2A, který dokáže vytvářet zvuk a dialogy pro videa generovaná umělou inteligencí. V2A, což je zkratka pro video-to-audio, používá textové výzvy a obrazové pixely ke generování dialogů, hudby a zvukových efektů pro videa.

Čtěte také: Google DeepMind představuje TacticAI: Revolutionizing Soccer Tactics

Podle DeepMind generované zvukové efekty a hudba odpovídají zamýšlenému tónu a postavám videa. DeepMind dále vysvětlil, že tato technologie by mohla pomoci oživit videa generovaná AI.

V2A porovnává zvuk se scénami videa

Zatímco technologie generování zvuku není nic nového, DeepMind tvrdí, že její nástroj V2A je první svého druhu, který automaticky přiřazuje zvuk k videu.

„Modely generování videa postupují neuvěřitelným tempem, ale mnoho současných systémů dokáže generovat pouze tichý výstup,“ napsal DeepMind v příspěvku na blogu.

„Tréninkem v oblasti videa, zvuku a dalších anotací se naše technologie učí spojovat konkrétní zvukové události s různými vizuálními scénami a zároveň reagovat na informace poskytnuté v anotacích nebo přepisech.“

DeepMind.

Společnost dodala, že její technologie je automatická, na rozdíl od časově náročného ručního zarovnání, které vyžaduje úpravu zvuků, videí a časování.

Podle DeepMind lze nástroj V2A použít ke generování neomezeného počtu zvukových stop pro libovolný video výstup. Pozitivní výzva může být „definována tak, aby vedla generovaný výstup směrem k požadovaným zvukům, nebo negativní výzva, která jej odvedla od nežádoucích zvuků“.

„Tato flexibilita dává uživatelům větší kontrolu nad výstupem V2A, což umožňuje rychle experimentovat s různými zvukovými výstupy a vybrat si tu nejlepší shodu,“ uvedla společnost.

Sdílíme pokrok v naší generativní technologii video-to-audio (V2A). 🎥

Může přidat zvuk do tichých klipů, které odpovídají akustice scény, doprovázet akci na obrazovce a další.

Zde jsou 4 příklady – zapněte si zvuk. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

– Google DeepMind (@GoogleDeepMind) 17. června 2024

Hluboká mysl nepohnutá konkurencí

Nejnovější inovace přichází, když chce DeepMind upevnit svou dominanci v oboru. Začátkem tohoto roku dosáhla britská firma ElevenLabs, která vyrábí hlasové generátory pro umělou inteligenci, milníku poté, co její kolo financování série B vygenerovalo 80 milionů dolarů, čímž společnost podle Verdictu ohodnotila více než 1 miliardu dolarů.

Společnost říká, že její uživatelé vytvořili více než 100 let zvuku. Tvrdí také, že jeho audio software v současné době používá 41 % společností žebříčku Fortune 500.

Čtěte také: Google DeepMind vs. OpenAI: Závod v generování AI videa se zahřívá

Navzdory této konkurenci DeepMind naznačil, že s uvolněním technologie veřejnosti nespěchá.

„Než zvážíme otevření přístupu pro širší veřejnost, naše technologie V2A projde přísným bezpečnostním hodnocením a testováním,“ uvedla společnost.

DeepMind také uvedl, že V2A je spárovatelný s modely pro generování videa, jako je Veo, což pomáhá vytvářet realistické zvukové efekty.

Cryptopolitan zpravodajství Enacy Mapakame