DeepMind, дослідницька лабораторія Google зі штучного інтелекту, виявила, що працює над інструментом штучного інтелекту, відомим як V2A, який може створювати звук і діалоги для відео, згенерованих штучним інтелектом. V2A, що означає перетворення відео в аудіо, використовує текстові підказки та відеопікселі для створення діалогів, музики та звукових ефектів для відео.

Читайте також: Google DeepMind представляє TacticAI: революційна футбольна тактика

За словами DeepMind, створені звукові ефекти та музика відповідають передбачуваному тону та символам відео. DeepMind далі пояснив, що ця технологія може допомогти оживити відео, згенеровані ШІ.

V2A зіставляє аудіо та відео сцени

Хоча технологія створення звуку не є чимось новим, DeepMind стверджує, що його інструмент V2A є першим у своєму роді, який автоматично зіставляє аудіо з відео.

«Моделі генерації відео розвиваються неймовірними темпами, але багато сучасних систем можуть генерувати лише тихий вихід», — написав DeepMind у своєму блозі.

«Шляхом навчання на відео, аудіо та додаткових анотаціях наша технологія вчиться пов’язувати конкретні звукові події з різними візуальними сценами, реагуючи на інформацію, надану в анотаціях або транскриптах».

DeepMind.

Компанія додала, що її технологія є автоматичною на відміну від трудомісткого ручного налаштування, яке потребує налаштування звуків, відео та часу.

За словами DeepMind, інструмент V2A можна використовувати для створення необмеженої кількості звукових доріжок для будь-якого відеовиходу. Позитивну підказку можна «визначити, щоб скеровувати згенерований вихід до бажаних звуків, або негативну підказку, щоб відвести її від небажаних звуків».

«Ця гнучкість дає користувачам більше контролю над вихідним сигналом V2A, дозволяючи швидко експериментувати з різними аудіовиходами та вибирати найкращий», — заявили в компанії.

Ми ділимося прогресом у нашій технології перетворення відео в аудіо (V2A). 🎥

Він може додавати звук до тихих кліпів, який відповідає акустиці сцени, супроводжує дії на екрані тощо.

Ось 4 приклади – увімкніть звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 червня 2024 р

Глибинний розум не піддається конкуренції

Остання інновація з’явилася, коли DeepMind хоче зміцнити своє домінування в галузі. Раніше цього року британська фірма, що займається створенням голосу зі штучним інтелектом, ElevenLabs досягла важливої ​​віхи після того, як її раунд фінансування серії B приніс 80 мільйонів доларів США, оцінивши компанію понад 1 мільярд доларів, згідно з Verdict.

Компанія каже, що її користувачі створили аудіо за 100 років. Він також стверджує, що його аудіопрограмне забезпечення зараз використовується 41% компаній зі списку Fortune 500.

Читайте також: Google DeepMind проти OpenAI: гонка у створенні відео зі штучним інтелектом загострюється

Незважаючи на цю конкуренцію, DeepMind вказав, що вони не поспішають випускати технологію для громадськості.

«Перш ніж ми розглянемо можливість відкриття доступу для широкої громадськості, наша технологія V2A піддасться ретельній оцінці безпеки та тестуванню», — заявили в компанії.

DeepMind також зазначив, що V2A сумісна з моделями генерації відео, такими як Veo, що допомагає створювати реалістичні звукові ефекти.

Звіти Cryptopolitan від Enacy Mapakame