A equipe de pesquisa da Microsoft revelou o VALL-E 2, um novo sistema de clonagem de voz de IA para síntese de fala capaz de gerar vozes de “desempenho de nível humano” com apenas alguns segundos de áudio que eram indistinguíveis da fonte.
“(VALL-E 2 é) o mais recente avanço em modelos de linguagem de codec neural que marca um marco na síntese de texto para fala (TTS) de disparo zero, alcançando a paridade humana pela primeira vez”, diz o artigo de pesquisa.
O sistema baseia-se em seu antecessor, VALL-E, lançado no início de 2023. Os modelos de linguagem de codec neural representam a fala como sequências de código.
O que diferencia o VALL-E 2 de outras técnicas de clonagem de voz é seu método “Repetition Aware Sampling” e alternância adaptativa entre técnicas de amostragem, disse a equipe.
As estratégias melhoram a consistência e abordam os problemas mais comuns na voz generativa tradicional.
“O VALL-E 2 sintetiza consistentemente fala de alta qualidade, mesmo para frases que são tradicionalmente desafiadoras devido à sua complexidade ou frases repetitivas”, escreveram os pesquisadores, apontando que a tecnologia pode ajudar a gerar fala para pessoas que perdem a capacidade de falar.
Por mais impressionante que seja, porém, a ferramenta não será disponibilizada ao público.
“Atualmente, não temos planos de incorporar o VALL-E 2 em um produto ou expandir o acesso ao público”, disse a Microsoft em sua declaração de ética, observando que tais ferramentas trazem riscos como imitação de voz sem consentimento e o uso de vozes convincentes de IA em golpes e outras atividades criminosas.
A equipa de investigação enfatizou que existe a necessidade de um método padrão para marcar digitalmente as gerações de IA, reconhecendo que a deteção de conteúdos gerados por IA com elevada precisão ainda continua a ser um desafio.
“Se o modelo for generalizado para falantes invisíveis no mundo real, ele deverá incluir um protocolo para garantir que o locutor aprove o uso de sua voz e um modelo de detecção de fala sintetizada”, escreveram.
Dito isto, os resultados do VALL-E 2 são muito precisos em comparação com outras ferramentas. Numa série de testes realizados pela equipa de investigação, o VALL-E 2 superou os benchmarks humanos em robustez, naturalidade e semelhança da fala gerada.
O VALL-E-2 conseguiu esses resultados com apenas 3 segundos de áudio. A equipe de pesquisa observou, entretanto, que “o uso de amostras de fala de 10 segundos resultou em uma qualidade ainda melhor”.
A Microsoft não é a única empresa de IA que demonstrou modelos de IA de ponta sem lançá-los. O Voicebox da Meta e o Voice Engine da OpenAI são dois clonadores de voz impressionantes que também enfrentam restrições semelhantes.
“Existem muitos casos de uso interessantes para modelos de fala generativa, mas devido aos riscos potenciais de uso indevido, não estamos disponibilizando publicamente o modelo ou código do Voicebox neste momento”, disse um porta-voz da Meta AI ao Decrypt no ano passado.
Além disso, a OpenAI explicou que está tentando primeiro resolver o problema de segurança antes de lançar seu modelo de vozes sintéticas.
“Em linha com a nossa abordagem à segurança da IA e os nossos compromissos voluntários, optamos por pré-visualizar, mas não lançar amplamente esta tecnologia neste momento”, explicou OpenAI num post oficial do blog.
Este apelo a orientações éticas está a espalhar-se por toda a comunidade da IA, especialmente à medida que os reguladores começam a levantar preocupações sobre o impacto da IA generativa na nossa vida quotidiana.