OpenAI pode reproduzir vozes humanas – mas ainda não lançou a tecnologia

A tecnologia de síntese de fala já percorreu um longo caminho desde a introdução dos brinquedos Speak & Spell em 1978. Agora, usando modelos de inteligência artificial de aprendizagem profunda, o software pode não apenas criar sons com sons realistas, mas também imitar de forma convincente os sons existentes usando pequenas amostras de áudio. A OpenAI lançou esta semana o Speech Engine, um modelo de inteligência artificial de conversão de texto em fala usado para criar fala sintética a partir de clipes de áudio gravados de 15 segundos. Mas a OpenAI ainda não está pronta para um amplo lançamento de sua tecnologia, e a empresa planejou inicialmente lançar um programa piloto no início deste mês para que os desenvolvedores se inscrevessem na API do mecanismo de fala. Mas depois de pensar mais sobre as implicações éticas, a empresa decidiu reduzir as suas ambições por enquanto. A empresa disse esperar que a pré-visualização demonstre o potencial dos motores de fala e inspire a necessidade de construir resiliência social aos desafios colocados por modelos generativos cada vez mais atraentes. No geral, a tecnologia de clonagem de voz não é particularmente nova, mas é digna de nota a ideia de que a OpenAI está gradualmente permitindo que qualquer pessoa use sua marca específica de tecnologia de voz. A empresa afirma que os benefícios da tecnologia de voz incluem o fornecimento de assistência à leitura por meio de vozes naturais, proporcionando aos criadores alcance global, fornecendo opções de voz personalizadas para indivíduos não-verbais e ajudando os pacientes a recuperar a voz após a cirurgia. Mas também significa que qualquer pessoa que tenha 15 segundos da voz gravada de alguém pode efetivamente cloná-la, o que tem implicações óbvias para possíveis abusos. Portanto, a OpenAI está nos alertando de forma responsável sobre essa tecnologia que já existe, dizendo que está procurando eliminar gradualmente a autenticação de contas bancárias baseada em voz e educar o público sobre o “potencial de conteúdo enganoso de IA”. que pode rastrear a origem do conteúdo de áudio.

$ARS

$AIGX

$FET $SOL $BTC #Ai赛道