Un nuovo studio ha scoperto che i modelli linguistici di grandi dimensioni (LLM) addestrati su precedenti iterazioni di materiale generato dall’intelligenza artificiale producono risultati privi di sostanza e sfumature. I risultati rappresentano una nuova sfida per gli sviluppatori di intelligenza artificiale, che fanno affidamento su set di dati limitati generati dall’uomo per i contenuti.
Leggi anche: I deepfake dell’intelligenza artificiale stanno rendendo difficile per le autorità statunitensi proteggere i bambini – rapporto
I ricercatori di intelligenza artificiale dell’Università di Cambridge e dell’Università di Oxford nel Regno Unito hanno provato a scrivere suggerimenti basandosi su un set di dati comprendente solo contenuti generati dall’intelligenza artificiale. Il risultato non è stato ideale, poiché ha prodotto risposte incomprensibili.
L’intelligenza artificiale ha ancora bisogno degli esseri umani per avere un senso
Uno degli autori dell’articolo, Zhakar Shumaylov dell’Università di Cambridge, ha affermato che è necessario un controllo di qualità nei dati che alimentano gli LLM, la tecnologia alla base dei chatbot di intelligenza artificiale generativa come ChatGPT e Gemini di Google. Shumaylov ha detto:
“Il messaggio è che dobbiamo stare molto attenti a ciò che finisce nei nostri dati di allenamento. [Altrimenti,] le cose andranno sempre, in modo dimostrabile, storte”.
Il fenomeno è noto come “collasso del modello”, ha spiegato Shumaylov. È stato dimostrato che influisce su tutti i tipi di modelli di intelligenza artificiale, compresi quelli specializzati nella generazione di immagini utilizzando istruzioni di testo.
Secondo lo studio, ripetere i messaggi di testo utilizzando i dati generati dall’intelligenza artificiale su un modello ha finito per generare parole senza senso. Ad esempio, i ricercatori hanno scoperto che un sistema testato con testi sui campanili delle chiese medievali del Regno Unito ha prodotto un elenco ripetitivo di lepri dopo solo nove generazioni.
Commentando i risultati, lo scienziato informatico dell’Università della California, Hany Farid, ha paragonato il collasso dei dati alle sfide endemiche legate alla consanguineità degli animali.
“Se una specie si accoppia con la propria prole e non diversifica il proprio patrimonio genetico, ciò può portare al collasso della specie”, ha detto Farid.
Quando i ricercatori hanno integrato i dati generati dall’uomo nei dati dell’intelligenza artificiale, il collasso è avvenuto più lentamente rispetto a quando veniva eseguito su contenuti puramente generati dall’intelligenza artificiale.
I modelli di intelligenza artificiale producono incomprensioni quando vengono addestrati su dati generati dall'intelligenza artificiale. Ricercatori: l’intelligenza artificiale potrebbe peggiorare i pregiudizi contro i gruppi minoritari
I modelli linguistici funzionano costruendo associazioni tra token – parole o parti di parole – in enormi porzioni di testo, spesso recuperate da Internet. Generano testo sputando la parola successiva statisticamente più probabile, sulla base di questi modelli appresi.
Leggi anche: L'orsacchiotto Poe basato su ChatGPT legge le favole della buonanotte ai bambini
Lo studio, pubblicato sulla rivista Nature il 24 luglio, ha dimostrato che le informazioni menzionate più volte nei set di dati probabilmente non verranno ripetute. I ricercatori temono che ciò potrebbe avere un impatto negativo sui gruppi minoritari già emarginati.
Per evitare il collasso del modello nei casi d’uso della vita reale, lo studio ha suggerito di applicare il watermark ai contenuti generati dall’intelligenza artificiale e ai contenuti generati dagli esseri umani. Ma questo potrebbe anche essere problematico a causa della mancanza di coordinamento tra le società rivali di intelligenza artificiale.
I risultati dello studio arrivano in un momento in cui è in corso un crescente dibattito sulla possibilità che l’intelligenza artificiale comporterà la totale esclusione degli esseri umani dalla creazione di contenuti, compresa la scrittura di romanzi e articoli di giornale.
Intitolati “I modelli di intelligenza artificiale collassano quando addestrati su dati generati ricorsivamente”, i risultati dello studio mettono fine a quel dibattito: gli esseri umani non sono ancora stati rimossi dall’equazione.