DeepMind, o laboratório de pesquisa de IA do Google, revelou que está trabalhando em uma ferramenta de IA conhecida como V2A, que pode criar som e diálogo para vídeos gerados por IA. V2A, que significa vídeo para áudio, usa prompts baseados em texto e pixels de vídeo para gerar diálogos, música e efeitos sonoros para vídeos.

Leia também: Google DeepMind apresenta TacticAI: revolucionando as táticas de futebol

De acordo com a DeepMind, os efeitos sonoros e a música gerados correspondem ao tom e aos personagens pretendidos do vídeo. DeepMind explicou ainda que a tecnologia poderia ajudar a dar mais vida aos vídeos gerados por IA.

V2A combina áudio com cenas de vídeo

Embora a tecnologia de geração de áudio não seja novidade, a DeepMind afirma que sua ferramenta V2A é a primeira desse tipo, que combina automaticamente áudio com vídeo.

“Os modelos de geração de vídeo estão avançando em um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa”, escreveu DeepMind em um blog.

“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições.”

DeepMind.

A empresa acrescentou que sua tecnologia é automática, em oposição ao demorado alinhamento manual, que requer ajuste de sons, vídeos e tempos.

Segundo DeepMind, a ferramenta V2A pode ser usada para gerar um número ilimitado de trilhas sonoras para qualquer saída de vídeo. Um prompt positivo pode ser “definido para guiar a saída gerada em direção aos sons desejados, ou um prompt negativo para orientá-lo para longe de sons indesejados”.

“Essa flexibilidade dá aos usuários mais controle sobre a saída do V2A, tornando possível experimentar rapidamente diferentes saídas de áudio e escolher a melhor combinação”, disse a empresa.

Estamos compartilhando o progresso em nossa tecnologia geradora de vídeo para áudio (V2A). 🎥

Ele pode adicionar som a clipes silenciosos que correspondam à acústica da cena, acompanhem a ação na tela e muito mais.

Aqui estão 4 exemplos – ligue o som. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

-Google DeepMind (@GoogleDeepMind) 17 de junho de 2024

Deepmind indiferente à concorrência

A inovação mais recente surge no momento em que a DeepMind deseja consolidar seu domínio na indústria. No início deste ano, a ElevenLabs, empresa britânica de geradores de voz de IA, alcançou um marco depois que sua rodada de financiamento da série B gerou US$ 80 milhões, avaliando a empresa em mais de US$ 1 bilhão, de acordo com o Verdict.

A empresa afirma que seus usuários geraram mais de 100 anos de áudio. Ela também afirma que seu software de áudio é usado atualmente por 41% das empresas Fortune 500.

Leia também: Google DeepMind vs. OpenAI: a corrida na geração de vídeos de IA esquenta

Apesar desta competição, a DeepMind indicou que não tem pressa em lançar a tecnologia ao público.

“Antes de considerarmos a abertura do acesso ao público em geral, a nossa tecnologia V2A passará por avaliações e testes de segurança rigorosos”, afirmou a empresa.

A DeepMind também indicou que o V2A pode ser emparelhado com modelos de geração de vídeo como o Veo, o que ajuda a criar efeitos sonoros realistas.

Reportagem criptopolitana de Enacy Mapakame