DeepMind, laboratorium badawcze Google zajmujące się sztuczną inteligencją, ujawniło, że pracuje nad narzędziem AI znanym jako V2A, które może tworzyć dźwięk i dialogi w filmach generowanych przez sztuczną inteligencję. V2A, czyli wideo na audio, wykorzystuje podpowiedzi tekstowe i piksele wideo do generowania dialogów, muzyki i efektów dźwiękowych do filmów.

Przeczytaj także: Google DeepMind wprowadza TacticAI: rewolucjonizuje taktykę piłkarską

Według DeepMind efekty dźwiękowe i wygenerowana muzyka odpowiadają zamierzonemu tonowi i charakterom filmu. DeepMind wyjaśnił dalej, że technologia może ożywić filmy generowane przez sztuczną inteligencję.

V2A dopasowuje sceny audio do wideo

Chociaż technologia generowania dźwięku nie jest niczym nowym, DeepMind twierdzi, że opracowane przez nią narzędzie V2A jest pierwszym w swoim rodzaju, które automatycznie dopasowuje dźwięk do obrazu.

„Modele generowania wideo rozwijają się w niewiarygodnym tempie, ale wiele obecnych systemów może generować jedynie cichy sygnał wyjściowy” – napisał DeepMind w poście na blogu.

„Dzięki szkoleniu w zakresie obrazu, dźwięku i dodatkowych adnotacji nasza technologia uczy się kojarzyć określone zdarzenia dźwiękowe z różnymi scenami wizualnymi, reagując jednocześnie na informacje zawarte w adnotacjach lub transkrypcjach”.

Głęboki Umysł.

Firma dodała, że ​​jej technologia jest automatyczna, w przeciwieństwie do czasochłonnego ręcznego dopasowywania, które wymaga dostosowania dźwięków, filmów i taktowania.

Według DeepMind narzędzie V2A może służyć do generowania nieograniczonej liczby ścieżek dźwiękowych dla dowolnego wyjścia wideo. Podpowiedź pozytywną można „zdefiniować tak, aby kierowała wygenerowany sygnał wyjściowy w stronę pożądanych dźwięków, lub podpowiedź negatywną, aby kierować go z dala od niepożądanych dźwięków”.

„Ta elastyczność daje użytkownikom większą kontrolę nad wyjściem V2A, umożliwiając szybkie eksperymentowanie z różnymi wyjściami audio i wybór najlepszego dopasowania” – stwierdziła firma.

Dzielimy się postępami w naszej technologii generowania sygnału wideo na audio (V2A). 🎥

Może dodawać dźwięk do niemych klipów, pasujący do akustyki sceny, towarzyszyć akcjom na ekranie i nie tylko.

Oto 4 przykłady – włącz dźwięk. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 czerwca 2024 r

Deepmind niewzruszony konkurencją

Najnowsza innowacja pojawia się, gdy DeepMind chce umocnić swoją dominację w branży. Na początku tego roku brytyjska firma ElevenLabs zajmująca się generatorami głosu AI osiągnęła kamień milowy po tym, jak runda finansowania serii B wygenerowała 80 milionów dolarów, co oznacza, że ​​wycena firmy przekracza 1 miliard dolarów, według Verdict.

Firma twierdzi, że jej użytkownicy stworzyli dźwięk przez ponad 100 lat. Twierdzi również, że z jego oprogramowania audio korzysta obecnie 41% firm z listy Fortune 500.

Przeczytaj także: Google DeepMind kontra OpenAI: wyścig w generowaniu wideo AI nabiera tempa

Pomimo tej konkurencji firma DeepMind wskazała, że ​​nie spieszy się z udostępnieniem technologii społeczeństwu.

„Zanim rozważymy udostępnienie szerszej publiczności, nasza technologia V2A zostanie poddana rygorystycznym ocenom i testom bezpieczeństwa” – oznajmiła firma.

DeepMind wskazał również, że V2A można sparować z modelami generowania wideo, takimi jak Veo, co pomaga tworzyć realistyczne efekty dźwiękowe.

Kryptopolityczne raporty Enacy Mapakame