Secondo Cointelegraph, un team di scienziati dell'Università della Carolina del Nord, Chapel Hill, ha recentemente pubblicato una ricerca pre-stampa sull'intelligenza artificiale (AI) che evidenzia la difficoltà di rimuovere dati sensibili da modelli linguistici di grandi dimensioni (LLM) come ChatGPT di OpenAI e Bard di Google. . I ricercatori hanno scoperto che, sebbene sia possibile eliminare le informazioni dai LLM, verificare che le informazioni siano state rimosse è altrettanto impegnativo quanto il processo di rimozione stesso.
Questa difficoltà deriva dal modo in cui gli LLM sono progettati e formati. Sono pre-addestrati su database e poi ottimizzati per generare risultati coerenti. Una volta addestrato un modello, i suoi creatori non possono tornare nel database ed eliminare file specifici per impedire al modello di produrre risultati correlati. Questa è la "scatola nera" dell'intelligenza artificiale. I problemi si verificano quando i LLM addestrati su enormi set di dati producono informazioni sensibili, come informazioni di identificazione personale o documenti finanziari.
Per risolvere questo problema, gli sviluppatori di intelligenza artificiale utilizzano guardrail, come prompt codificati che inibiscono comportamenti specifici o apprendimento di rinforzo dal feedback umano (RLHF). Tuttavia, i ricercatori dell’UNC sostengono che questo metodo si basa sul fatto che gli esseri umani trovino tutti i difetti che un modello potrebbe presentare e, anche in caso di successo, non “elimina” le informazioni dal modello. I ricercatori hanno concluso che anche i metodi di modifica dei modelli all’avanguardia, come il Rank-One Model Editing (ROME), non riescono a eliminare completamente le informazioni fattuali dai LLM, poiché i fatti possono ancora essere estratti il 38% delle volte tramite attacchi whitebox e il 29% delle volte da attacchi blackbox.
I ricercatori sono stati in grado di sviluppare nuovi metodi di difesa per proteggere gli LLM da alcuni “attacchi di estrazione”: tentativi intenzionali da parte di malintenzionati di utilizzare suggerimenti per aggirare i guardrail di un modello al fine di far sì che generi informazioni sensibili. Tuttavia, hanno notato che il problema della cancellazione di informazioni sensibili potrebbe essere uno di quelli in cui i metodi di difesa sono sempre al passo con i nuovi metodi di attacco.