Google DeepMind разрабатывает V2A, который создает звук для видео с искусственным интеллектом

DeepMind, исследовательская лаборатория Google в области искусственного интеллекта, сообщила, что работает над инструментом искусственного интеллекта, известным как V2A, который может создавать звук и диалоги для видео, созданных искусственным интеллектом. V2A, что означает «видео в аудио», использует текстовые подсказки и видеопиксели для создания диалогов, музыки и звуковых эффектов для видео.
Читайте также: Google DeepMind представляет TacticAI: революция в футбольных тактиках
По данным DeepMind, созданные звуковые эффекты и музыка соответствуют предполагаемому тону и персонажам видео. DeepMind далее пояснил, что эта технология может помочь оживить видео, созданное искусственным интеллектом.
V2A сопоставляет аудио с видеосценами
Хотя в технологии генерации звука нет ничего нового, DeepMind утверждает, что ее инструмент V2A является первым в своем роде, который автоматически сопоставляет аудио с видео.
«Модели генерации видео развиваются невероятными темпами, но многие современные системы могут генерировать только тихий вывод», — написал DeepMind в своем блоге.
«Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать определенные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, представленную в аннотациях или расшифровках».
ДипМайнд.
Компания добавила, что ее технология является автоматической, в отличие от трудоемкой ручной настройки, которая требует настройки звука, видео и тайминга.
По данным DeepMind, инструмент V2A можно использовать для создания неограниченного количества саундтреков для любого видеовывода. Положительная подсказка может быть «определена так, чтобы направлять генерируемый результат к желаемым звукам, или отрицательная подсказка, чтобы отклонять ее от нежелательных звуков».
«Эта гибкость дает пользователям больше контроля над выходом V2A, позволяя быстро экспериментировать с различными аудиовыходами и выбирать наиболее подходящий», — заявили в компании.
Мы делимся прогрессом в области генеративной технологии преобразования видео в аудио (V2A). 🎥
Он может добавлять к немым клипам звук, соответствующий акустике сцены, сопровождающий действия на экране и многое другое.
Вот 4 примера – включите звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
– Google DeepMind (@GoogleDeepMind) 17 июня 2024 г.
Deepmind не тронут конкуренцией
Последняя инновация появилась, когда DeepMind хочет укрепить свое доминирование в отрасли. Ранее в этом году британская компания ElevenLabs, занимающаяся созданием голосовых генераторов искусственного интеллекта, достигла важной вехи после того, как ее раунд финансирования серии B принес 80 миллионов долларов, что оценило компанию в более чем 1 миллиард долларов, согласно Verdict.
Компания заявляет, что ее пользователи создали аудио за более чем 100 лет. Компания также утверждает, что ее аудиопрограммное обеспечение в настоящее время используется 41% компаний из списка Fortune 500.
Читайте также: Google DeepMind против OpenAI: гонка в создании видео с использованием искусственного интеллекта набирает обороты
Несмотря на эту конкуренцию, DeepMind заявила, что не торопится публиковать технологию.
«Прежде чем мы рассмотрим возможность открытия доступа к более широкой публике, наша технология V2A пройдет строгую оценку и тестирование безопасности», — заявили в компании.
DeepMind также отметила, что V2A совместима с моделями генерации видео, такими как Veo, что помогает создавать реалистичные звуковые эффекты.
Криптополитический репортаж Энаси Мапакаме
Google DeepMind разрабатывает V2A, который создает звук для видео с искусственным интеллектом

Другие публикации автора

Последние новости

Google DeepMind разрабатывает V2A, который создает звук для видео с искусственным интеллектом

Другие публикации автора

Последние новости

Популярные статьи