Potrivit Cointelegraph, o echipă de oameni de știință de la Universitatea din Carolina de Nord, Chapel Hill, a publicat recent o cercetare pre-printare a inteligenței artificiale (AI) care evidențiază dificultatea eliminării datelor sensibile din modele de limbaj mari (LLM) precum ChatGPT de la OpenAI și Bard de la Google. . Cercetătorii au descoperit că, deși este posibil să ștergeți informații din LLM-uri, verificarea că informațiile au fost eliminate este la fel de dificilă ca și procesul de eliminare în sine.

Această dificultate apare din modul în care sunt proiectați și instruiți LLM-urile. Aceștia sunt pregătiți în prealabil pe baze de date și apoi sunt reglați fin pentru a genera rezultate coerente. Odată ce un model este antrenat, creatorii săi nu pot reveni în baza de date și nu pot șterge anumite fișiere pentru a împiedica modelul să scoată rezultate aferente. Aceasta este „cutia neagră” a AI. Problemele apar atunci când LLM-urile instruite pe seturi de date masive produc informații sensibile, cum ar fi informații de identificare personală sau înregistrări financiare.

Pentru a rezolva această problemă, dezvoltatorii de IA folosesc balustrade, cum ar fi indicații codificate greu care inhibă comportamente specifice sau învățare de întărire din feedbackul uman (RLHF). Cu toate acestea, cercetătorii UNC susțin că această metodă se bazează pe oamenii care găsesc toate defectele pe care le-ar putea prezenta un model și, chiar și atunci când are succes, încă nu „șterge” informațiile din model. Cercetătorii au ajuns la concluzia că chiar și metodele de ultimă generație de editare a modelelor, cum ar fi Rank-One Model Editing (ROME), nu reușesc să șteargă complet informațiile faptice din LLM-uri, deoarece faptele pot fi extrase în 38% din timp prin atacuri cu casete albe. și 29% din timp prin atacuri cu casete negre.

Cercetătorii au reușit să dezvolte noi metode de apărare pentru a proteja LLM-urile de unele „atacuri de extracție” - încercări intenționate ale unor actori răi de a folosi îndemnul pentru a ocoli balustradele unui model pentru a-l face să scoată informații sensibile. Cu toate acestea, ei au remarcat că problema ștergerii informațiilor sensibile poate fi una în care metodele de apărare sunt mereu în calea noilor metode de atac.