Il team di ricerca di Microsoft ha presentato VALL-E 2, un nuovo sistema di clonazione vocale AI per la sintesi vocale in grado di generare voci “prestazioni di livello umano” con solo pochi secondi di audio indistinguibili dalla sorgente.

"(VALL-E 2 è) l'ultimo progresso nei modelli linguistici dei codec neurali che segna una pietra miliare nella sintesi vocale (TTS) zero-shot, raggiungendo per la prima volta la parità umana", si legge nel documento di ricerca. 

Il sistema si basa sul suo predecessore, VALL-E, introdotto all'inizio del 2023. I modelli linguistici dei codec neurali rappresentano il parlato come sequenze di codice.

Ciò che distingue VALL-E 2 dalle altre tecniche di clonazione vocale è il suo metodo di "campionamento consapevole della ripetizione" e il passaggio adattivo tra le tecniche di campionamento, ha affermato il team. 

Le strategie migliorano la coerenza e affrontano i problemi più comuni nella voce generativa tradizionale.

"VALL-E 2 sintetizza costantemente un parlato di alta qualità, anche per frasi tradizionalmente impegnative a causa della loro complessità o frasi ripetitive", hanno scritto i ricercatori, sottolineando che la tecnologia potrebbe aiutare a generare parlato per le persone che perdono la capacità di parlare.

Per quanto impressionante, tuttavia, lo strumento non sarà reso disponibile al pubblico.

"Al momento, non abbiamo intenzione di incorporare VALL-E 2 in un prodotto o di espandere l'accesso al pubblico", ha affermato Microsoft nella sua dichiarazione etica, sottolineando che tali strumenti comportano rischi come l'imitazione vocale senza consenso e l'uso di voci convincenti di intelligenza artificiale in truffe e altre attività criminali.

Il gruppo di ricerca ha sottolineato che esiste la necessità di un metodo standard per contrassegnare digitalmente le generazioni di intelligenza artificiale, riconoscendo che il rilevamento dei contenuti generati dall’intelligenza artificiale con elevata precisione rimane ancora una sfida.

"Se il modello fosse generalizzato a parlanti invisibili nel mondo reale, dovrebbe includere un protocollo per garantire che chi parla approvi l'uso della propria voce e un modello di rilevamento vocale sintetizzato", hanno scritto.

Detto questo, i risultati di VALL-E 2 sono molto accurati rispetto ad altri strumenti. In una serie di test effettuati dal gruppo di ricerca, VALL-E 2 ha superato i parametri di riferimento umani in termini di robustezza, naturalezza e somiglianza del parlato generato.

VALL-E-2 è stato in grado di ottenere questi risultati con soli 3 secondi di audio. Il gruppo di ricerca ha tuttavia notato che “l’utilizzo di campioni di parlato di 10 secondi ha prodotto una qualità ancora migliore”.

Microsoft non è l'unica azienda di intelligenza artificiale che ha dimostrato modelli di intelligenza artificiale all'avanguardia senza rilasciarli. Voicebox di Meta e Voice Engine di OpenAI sono due impressionanti clonatori vocali che devono affrontare restrizioni simili.

"Ci sono molti casi d'uso interessanti per i modelli vocali generativi, ma a causa dei potenziali rischi di uso improprio, al momento non stiamo rendendo il modello o il codice Voicebox pubblicamente disponibile", ha detto a Decrypt l'anno scorso un portavoce di Meta AI.

Inoltre, OpenAI ha spiegato che sta cercando di affrontare il problema della sicurezza prima di lanciare il suo modello di voci sintetiche.

"In linea con il nostro approccio alla sicurezza dell'intelligenza artificiale e i nostri impegni volontari, stiamo scegliendo di visualizzare in anteprima ma di non rilasciare ampiamente questa tecnologia in questo momento", ha spiegato OpenAI in un post sul blog ufficiale.

Questa richiesta di linee guida etiche si sta diffondendo in tutta la comunità dell’IA, soprattutto perché i regolatori iniziano a sollevare preoccupazioni sull’impatto dell’IA generativa nella nostra vita quotidiana.