OpenAI può riprodurre le voci umane, ma non ha ancora rilasciato la tecnologia

La tecnologia di sintesi vocale ha fatto molta strada dall'introduzione dei giocattoli Speak & Spell nel 1978. Ora, utilizzando modelli di intelligenza artificiale con apprendimento profondo, il software può non solo creare suoni dal suono realistico, ma anche imitare in modo convincente i suoni esistenti utilizzando piccoli campioni audio. OpenAI questa settimana ha rilasciato Speech Engine, un modello di intelligenza artificiale di sintesi vocale utilizzato per creare parlato sintetico da clip audio registrate di 15 secondi. Ma OpenAI non è ancora pronta per un ampio rilascio della sua tecnologia e la società inizialmente aveva pianificato di lanciare un programma pilota all'inizio di questo mese per consentire agli sviluppatori di iscriversi all'API del motore vocale. Ma dopo aver riflettuto maggiormente sulle implicazioni etiche, l’azienda ha deciso di ridimensionare per il momento le proprie ambizioni. La società spera che l’anteprima dimostri il potenziale dei motori vocali e ispiri la necessità di costruire resilienza sociale alle sfide poste da modelli generativi sempre più convincenti. Nel complesso, la tecnologia di clonazione vocale non è particolarmente nuova, ma l'idea che OpenAI stia gradualmente consentendo a chiunque di utilizzare il suo particolare marchio di tecnologia vocale è degna di nota. L’azienda afferma che i vantaggi della tecnologia vocale includono fornire assistenza alla lettura attraverso voci naturali, fornire ai creatori una portata globale, fornire opzioni vocali personalizzate per individui non verbali e aiutare i pazienti a ritrovare la voce dopo l’intervento chirurgico. Ma significa anche che chiunque abbia 15 secondi di voce registrata di qualcuno può effettivamente clonarla, il che ha ovvie implicazioni per potenziali abusi. Quindi OpenAI ci sta responsabilmente mettendo in guardia su questa tecnologia già esistente, dicendo che stanno cercando di eliminare gradualmente l'autenticazione dei conti bancari basata sulla voce e di educare il pubblico sul "potenziale di contenuti AI ingannevoli." e soluzioni come accelerare lo sviluppo di tecnologie che può risalire all'origine del contenuto audio.

$ARS

$AIGX

$FET $SOL $BTC #Ai赛道