DeepMind, исследовательская лаборатория Google в области искусственного интеллекта, сообщила, что работает над инструментом искусственного интеллекта, известным как V2A, который может создавать звук и диалоги для видео, созданных искусственным интеллектом. V2A, что означает «видео в аудио», использует текстовые подсказки и видеопиксели для создания диалогов, музыки и звуковых эффектов для видео.

Читайте также: Google DeepMind представляет TacticAI: революция в футбольных тактиках

По данным DeepMind, созданные звуковые эффекты и музыка соответствуют предполагаемому тону и персонажам видео. DeepMind далее пояснил, что эта технология может помочь оживить видео, созданное искусственным интеллектом.

V2A сопоставляет аудио с видеосценами

Хотя в технологии генерации звука нет ничего нового, DeepMind утверждает, что ее инструмент V2A является первым в своем роде, который автоматически сопоставляет аудио с видео.

«Модели генерации видео развиваются невероятными темпами, но многие современные системы могут генерировать только тихий вывод», — написал DeepMind в своем блоге.

«Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать определенные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, представленную в аннотациях или расшифровках».

ДипМайнд.

Компания добавила, что ее технология является автоматической, в отличие от трудоемкой ручной настройки, которая требует настройки звука, видео и тайминга.

По данным DeepMind, инструмент V2A можно использовать для создания неограниченного количества саундтреков для любого видеовывода. Положительная подсказка может быть «определена так, чтобы направлять генерируемый результат к желаемым звукам, или отрицательная подсказка, чтобы отклонять ее от нежелательных звуков».

«Эта гибкость дает пользователям больше контроля над выходом V2A, позволяя быстро экспериментировать с различными аудиовыходами и выбирать наиболее подходящий», — заявили в компании.

Мы делимся прогрессом в области генеративной технологии преобразования видео в аудио (V2A). 🎥

Он может добавлять к немым клипам звук, соответствующий акустике сцены, сопровождающий действия на экране и многое другое.

Вот 4 примера – включите звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

– Google DeepMind (@GoogleDeepMind) 17 июня 2024 г.

Deepmind не тронут конкуренцией

Последняя инновация появилась, когда DeepMind хочет укрепить свое доминирование в отрасли. Ранее в этом году британская компания ElevenLabs, занимающаяся созданием голосовых генераторов искусственного интеллекта, достигла важной вехи после того, как ее раунд финансирования серии B принес 80 миллионов долларов, что оценило компанию в более чем 1 миллиард долларов, согласно Verdict.

Компания заявляет, что ее пользователи создали аудио за более чем 100 лет. Компания также утверждает, что ее аудиопрограммное обеспечение в настоящее время используется 41% компаний из списка Fortune 500.

Читайте также: Google DeepMind против OpenAI: гонка в создании видео с использованием искусственного интеллекта набирает обороты

Несмотря на эту конкуренцию, DeepMind заявила, что не торопится публиковать технологию.

«Прежде чем мы рассмотрим возможность открытия доступа к более широкой публике, наша технология V2A пройдет строгую оценку и тестирование безопасности», — заявили в компании.

DeepMind также отметила, что V2A совместима с моделями генерации видео, такими как Veo, что помогает создавать реалистичные звуковые эффекты.

Криптополитический репортаж Энаси Мапакаме