L’équipe de recherche de Microsoft a dévoilé VALL-E 2, un nouveau système de clonage vocal d’IA pour la synthèse vocale capable de générer des voix « performantes au niveau humain » avec seulement quelques secondes d’audio impossible à distinguer de la source.

"(VALL-E 2 est) la dernière avancée dans les modèles de langage de codec neuronal qui marque une étape importante dans la synthèse texte-parole (TTS) sans tir, atteignant pour la première fois la parité humaine", indique le document de recherche. 

Le système s'appuie sur son prédécesseur, VALL-E, introduit début 2023. Les modèles de langage de codec neuronal représentent la parole sous forme de séquences de code.

Ce qui distingue VALL-E 2 des autres techniques de clonage vocal est sa méthode « Repetition Aware Sampling » et sa commutation adaptative entre les techniques d’échantillonnage, a déclaré l’équipe. 

Les stratégies améliorent la cohérence et résolvent les problèmes les plus courants de la voix générative traditionnelle.

"VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases traditionnellement difficiles en raison de leur complexité ou de leurs phrases répétitives", ont écrit les chercheurs, soulignant que la technologie pourrait aider à générer de la parole pour les personnes qui perdent la capacité de parler.

Aussi impressionnant soit-il, l’outil ne sera cependant pas mis à la disposition du public.

"Actuellement, nous n'avons pas l'intention d'incorporer VALL-E 2 dans un produit ou d'élargir l'accès au public", a déclaré Microsoft dans sa déclaration éthique, notant que de tels outils comportent des risques tels que l'imitation de voix sans consentement et l'utilisation de voix convaincantes d'IA dans escroqueries et autres activités criminelles.

L’équipe de recherche a souligné la nécessité d’une méthode standard pour marquer numériquement les générations d’IA, reconnaissant que la détection du contenu généré par l’IA avec une grande précision reste toujours un défi.

"Si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole garantissant que l'orateur approuve l'utilisation de sa voix et un modèle de détection de parole synthétisée", ont-ils écrit.

Cela dit, les résultats de VALL-E 2 sont très précis par rapport à d’autres outils. Dans une série de tests effectués par l'équipe de recherche, VALL-E 2 a surpassé les références humaines en termes de robustesse, de naturel et de similarité de la parole générée.

VALL-E-2 a pu obtenir ces résultats avec seulement 3 secondes d'audio. L’équipe de recherche a toutefois noté que « l’utilisation d’échantillons vocaux de 10 secondes permettait d’obtenir une qualité encore meilleure ».

Microsoft n'est pas la seule entreprise d'IA à avoir démontré des modèles d'IA de pointe sans les publier. La Voicebox de Meta et le Voice Engine d’OpenAI sont deux cloneurs de voix impressionnants qui sont également confrontés à des restrictions similaires.

"Il existe de nombreux cas d'utilisation passionnants pour les modèles vocaux génératifs, mais en raison des risques potentiels d'utilisation abusive, nous ne rendons pas le modèle ou le code Voicebox publiquement disponible pour le moment", a déclaré un porte-parole de Meta AI à Decrypt l'année dernière.

En outre, OpenAI a expliqué qu’elle essayait d’abord de résoudre le problème de sécurité avant de lancer son modèle de voix synthétiques.

"Conformément à notre approche de la sécurité de l'IA et à nos engagements volontaires, nous choisissons de prévisualiser cette technologie, mais de ne pas la diffuser à grande échelle pour le moment", a expliqué OpenAI dans un article de blog officiel.

Cet appel à des lignes directrices éthiques se répand dans la communauté de l’IA, d’autant plus que les régulateurs commencent à exprimer leurs inquiétudes quant à l’impact de l’IA générative dans notre vie quotidienne.