OpenAI puede reproducir voces humanas, pero aún no ha lanzado la tecnología

La tecnología de síntesis de voz ha avanzado mucho desde la introducción de los juguetes Speak & Spell en 1978. Ahora, utilizando modelos de inteligencia artificial de aprendizaje profundo, el software no sólo puede crear sonidos que suenan realistas, sino también imitar de manera convincente sonidos existentes utilizando pequeñas muestras de audio. OpenAI lanzó esta semana Speech Engine, un modelo de inteligencia artificial de conversión de texto a voz utilizado para crear voz sintética a partir de clips de audio grabados de 15 segundos. Pero OpenAI aún no está listo para un lanzamiento amplio de su tecnología, y la compañía inicialmente planeó lanzar un programa piloto a principios de este mes para que los desarrolladores se registren en la API del motor de voz. Pero después de pensar más en las implicaciones éticas, la empresa decidió reducir sus ambiciones por ahora. La compañía dijo que espera que la vista previa demuestre el potencial de los motores de voz e inspire la necesidad de desarrollar resiliencia social ante los desafíos que plantean modelos generativos cada vez más atractivos. En general, la tecnología de clonación de voz no es particularmente nueva, pero es digna de mención la idea de que OpenAI está permitiendo gradualmente que cualquiera use su marca particular de tecnología de voz. La compañía dice que los beneficios de la tecnología de voz incluyen brindar asistencia de lectura a través de voces naturales, brindar a los creadores un alcance global, brindar opciones de voz personalizadas para personas no verbales y ayudar a los pacientes a recuperar la voz después de la cirugía. Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien puede clonarla efectivamente, lo que tiene implicaciones obvias para posibles abusos. Por lo tanto, OpenAI nos está advirtiendo responsablemente a todos sobre esta tecnología ya existente, diciendo que están buscando eliminar gradualmente la autenticación de cuentas bancarias basada en voz y educar al público sobre el "potencial de contenido engañoso de IA" y soluciones como acelerar el desarrollo de tecnología que puede rastrear el origen del contenido de audio.

$ARS

$AIGX

$FET $SOL $BTC #Ai赛道