DeepMind, le laboratoire de recherche en IA de Google, a révélé qu'il travaillait sur un outil d'IA connu sous le nom de V2A, capable de créer du son et des dialogues pour les vidéos générées par l'IA. V2A, qui signifie vidéo vers audio, utilise des invites textuelles et des pixels vidéo pour générer des dialogues, de la musique et des effets sonores pour les vidéos.

A lire aussi : Google DeepMind présente TacticAI : révolutionner les tactiques de football

Selon DeepMind, les effets sonores et la musique générés correspondent au ton et aux personnages prévus de la vidéo. DeepMind a en outre expliqué que la technologie pourrait contribuer à donner plus de vie aux vidéos générées par l'IA.

V2A fait correspondre l'audio aux scènes vidéo

Bien que la technologie de génération audio n'ait rien de nouveau, DeepMind affirme que son outil V2A est le premier du genre, qui associe automatiquement l'audio à la vidéo.

"Les modèles de génération vidéo progressent à un rythme incroyable, mais de nombreux systèmes actuels ne peuvent générer qu'une sortie silencieuse", a écrit DeepMind dans un article de blog.

"En s'entraînant sur la vidéo, l'audio et les annotations supplémentaires, notre technologie apprend à associer des événements audio spécifiques à diverses scènes visuelles, tout en répondant aux informations fournies dans les annotations ou les transcriptions."

Esprit profond.

La société a ajouté que sa technologie est automatique, par opposition à un alignement manuel fastidieux qui nécessite un ajustement des sons, des vidéos et des timings.

Selon DeepMind, l'outil V2A peut être utilisé pour générer un nombre illimité de bandes sonores pour n'importe quelle sortie vidéo. Une invite positive peut être « définie pour guider la sortie générée vers les sons souhaités, ou une invite négative pour l’éloigner des sons indésirables ».

"Cette flexibilité donne aux utilisateurs plus de contrôle sur la sortie du V2A, ce qui permet d'expérimenter rapidement différentes sorties audio et de choisir la meilleure correspondance", a déclaré la société.

Nous partageons les progrès réalisés sur notre technologie générative vidéo-audio (V2A). 🎥

Il peut ajouter du son aux clips silencieux qui correspondent à l'acoustique de la scène, accompagner l'action à l'écran, et bien plus encore.

Voici 4 exemples – allumez votre son. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

– Google DeepMind (@GoogleDeepMind) 17 juin 2024

Deepmind insensible à la concurrence

La dernière innovation intervient alors que DeepMind souhaite consolider sa domination dans le secteur. Plus tôt cette année, la société britannique de génération de voix IA, ElevenLabs, a franchi une étape importante après que son cycle de financement de série B ait généré 80 millions de dollars, valorisant l'entreprise à plus d'un milliard de dollars, selon Verdict.

La société affirme que ses utilisateurs ont généré plus de 100 ans d’audio. Il affirme également que son logiciel audio est actuellement utilisé par 41 % des entreprises Fortune 500.

Lisez aussi : Google DeepMind contre OpenAI : la course à la génération de vidéos IA s'intensifie

Malgré cette concurrence, DeepMind a indiqué qu'il n'était pas pressé de rendre la technologie accessible au public.

"Avant d'envisager d'ouvrir l'accès à un public plus large, notre technologie V2A sera soumise à des évaluations et des tests de sécurité rigoureux", a déclaré la société.

DeepMind a également indiqué que V2A peut être associé à des modèles de génération vidéo comme Veo, ce qui permet de créer des effets sonores réalistes.

Reportage cryptopolitain par Enacy Mapakame