El equipo de investigación de Microsoft ha presentado VALL-E 2, un nuevo sistema de clonación de voz con IA para síntesis de voz capaz de generar voces de "rendimiento a nivel humano" con solo unos segundos de audio que eran indistinguibles de la fuente.
"(VALL-E 2 es) el último avance en modelos de lenguaje de códec neuronal que marca un hito en la síntesis de texto a voz (TTS) de disparo cero, logrando la paridad humana por primera vez", se lee en el artículo de investigación.
El sistema se basa en su predecesor, VALL-E, presentado a principios de 2023. Los modelos de lenguaje de códec neuronal representan el habla como secuencias de código.
Lo que distingue a VALL-E 2 de otras técnicas de clonación de voz es su método de "muestreo consciente de la repetición" y el cambio adaptativo entre técnicas de muestreo, dijo el equipo.
Las estrategias mejoran la coherencia y abordan los problemas más comunes en la voz generativa tradicional.
"VALL-E 2 sintetiza constantemente voz de alta calidad, incluso para oraciones que tradicionalmente son desafiantes debido a su complejidad o frases repetitivas", escribieron los investigadores, señalando que la tecnología podría ayudar a generar voz para personas que pierden la capacidad de hablar.
Sin embargo, por muy impresionante que sea, la herramienta no estará disponible para el público.
"Actualmente, no tenemos planes de incorporar VALL-E 2 en un producto o ampliar el acceso al público", dijo Microsoft en su declaración de ética, señalando que tales herramientas conllevan riesgos como la imitación de voz sin consentimiento y el uso de voces convincentes de IA en estafas y otras actividades delictivas.
El equipo de investigación enfatizó que existe la necesidad de un método estándar para marcar digitalmente las generaciones de IA, reconociendo que detectar contenido generado por IA con alta precisión sigue siendo un desafío.
"Si el modelo se generaliza a hablantes invisibles en el mundo real, debería incluir un protocolo para garantizar que el hablante apruebe el uso de su voz y un modelo de detección de voz sintetizada", escribieron.
Dicho esto, los resultados de VALL-E 2 son muy precisos en comparación con otras herramientas. En una serie de pruebas realizadas por el equipo de investigación, VALL-E 2 superó los puntos de referencia humanos en robustez, naturalidad y similitud del habla generada.
VALL-E-2 pudo lograr estos resultados con solo 3 segundos de audio. Sin embargo, el equipo de investigación señaló que “el uso de muestras de voz de 10 segundos dio como resultado una calidad aún mejor”.
Microsoft no es la única empresa de inteligencia artificial que ha demostrado modelos de inteligencia artificial de vanguardia sin lanzarlos. Voicebox de Meta y Voice Engine de OpenAI son dos clonadores de voz impresionantes que también enfrentan restricciones similares.
"Hay muchos casos de uso interesantes para los modelos de voz generativa, pero debido a los riesgos potenciales de uso indebido, no vamos a hacer que el modelo o código de Voicebox esté disponible públicamente en este momento", dijo un portavoz de Meta AI a Decrypt el año pasado.
Además, OpenAI explicó que está intentando abordar primero el problema de seguridad antes de lanzar su modelo de voces sintéticas.
"De acuerdo con nuestro enfoque sobre la seguridad de la IA y nuestros compromisos voluntarios, elegimos realizar una vista previa de esta tecnología, pero no lanzarla ampliamente en este momento", explicó OpenAI en una publicación de blog oficial.
Este llamado a pautas éticas se está extendiendo por toda la comunidad de IA, especialmente a medida que los reguladores comienzan a expresar preocupaciones sobre el impacto de la IA generativa en nuestra vida cotidiana.