DeepMind, el laboratorio de investigación de inteligencia artificial de Google, ha revelado que está trabajando en una herramienta de inteligencia artificial conocida como V2A, que puede crear sonido y diálogos para videos generados por inteligencia artificial. V2A, que significa video a audio, utiliza indicaciones basadas en texto y píxeles de video para generar diálogos, música y efectos de sonido para videos.

Lea también: Google DeepMind presenta TacticAI: revolucionando las tácticas de fútbol

Según DeepMind, los efectos de sonido y la música generados coinciden con el tono y los personajes previstos del vídeo. DeepMind explicó además que la tecnología podría ayudar a dar más vida a los vídeos generados por IA.

V2A une escenas de audio con vídeo

Si bien la tecnología de generación de audio no es nada nuevo, DeepMind afirma que su herramienta V2A es la primera de su tipo, que relaciona automáticamente el audio con el video.

"Los modelos de generación de vídeo están avanzando a un ritmo increíble, pero muchos sistemas actuales sólo pueden generar resultados silenciosos", escribió DeepMind en una publicación de blog.

"Al entrenarse en video, audio y anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones".

Mente profunda.

La compañía agregó que su tecnología es automática, a diferencia de la alineación manual que requiere mucho tiempo y que requiere ajustar sonidos, videos y tiempos.

Según DeepMind, la herramienta V2A se puede utilizar para generar una cantidad ilimitada de bandas sonoras para cualquier salida de vídeo. Se puede "definir un mensaje positivo para guiar la salida generada hacia los sonidos deseados, o un mensaje negativo para alejarlo de los sonidos no deseados".

"Esta flexibilidad brinda a los usuarios más control sobre la salida de V2A, lo que permite experimentar rápidamente con diferentes salidas de audio y elegir la mejor combinación", dijo la compañía.

Estamos compartiendo el progreso de nuestra tecnología generativa de video a audio (V2A). 🎥

Puede agregar sonido a clips silenciosos que coincidan con la acústica de la escena, acompañar la acción en pantalla y más.

Aquí hay 4 ejemplos: active el sonido. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

– Google DeepMind (@GoogleDeepMind) 17 de junio de 2024

Deepmind indiferente a la competencia

La última innovación llega cuando DeepMind quiere consolidar su dominio en la industria. A principios de este año, la empresa británica de generación de voz de IA ElevenLabs logró un hito después de que su ronda de financiación serie B generara 80 millones de dólares, valorando a la empresa en más de mil millones de dólares, según Verdict.

La compañía dice que sus usuarios han generado más de 100 años de audio. También afirma que su software de audio es utilizado actualmente por el 41% de las empresas Fortune 500.

Lea también: Google DeepMind vs. OpenAI: la carrera en la generación de videos con IA se calienta

A pesar de esta competencia, DeepMind ha indicado que no tienen prisa por lanzar la tecnología al público.

"Antes de que consideremos abrir el acceso al público en general, nuestra tecnología V2A se someterá a rigurosas evaluaciones y pruebas de seguridad", dijo la compañía.

DeepMind también indicó que V2A se puede combinar con modelos de generación de video como Veo, lo que ayuda a crear efectos de sonido realistas.

Informe criptopolitano de Enacy Mapakame