Cercetătorii au forțat ChatGPT să citeze datele din care a învățat

Lucrarea științifică „Scalable Extraction of Training Data from (Production) Language Models” ( arXiv:2311.17035 ) analizează extragerea datelor setului de date de antrenament din diferite modele lingvistice. Cercetătorii au testat atât modele locale, cât și o soluție comercială de la OpenAI. Un atac de aliniere a fost folosit pentru a forța ChatGPT să citeze datele pe care a fost antrenat GPT-3.5.

Pentru a crea conținut nou, unic, modelele de rețele neuronale generative sunt antrenate pe cantități mari de date. În timpul procesului de instruire, modelele „își amintesc” exemplele din seturile de date de antrenament. Un atacator poate extrage aceste exemple din model.

Afirmațiile din paragraful anterior nu sunt doar speculații: au fost bine testate în practică. Acest lucru a fost demonstrat, de exemplu, pentru modelele de difuzie ( arXiv:2301.13188 ).

Modelele de limbaj mari (LLM) pe transformatoare sunt, de asemenea, susceptibile la acest lucru. Cercetările pe acest subiect sperie de obicei cititorul cu pericolul de a extrage date private ( arXiv:2202.05520 , arXiv:1802.08232 ). Într-adevăr, în lucrarea din 2021 „Extracting Training Data from Large Language Models” ( arXiv:2012.07805 ), nume, numere de telefon, adrese de e-mail și uneori chiar mesaje de chat au fost „extrase” din GPT-2.

Alte lucrări științifice evaluează volumul memoriei. Se pretinde că unele BYM-uri stochează cel puțin un procent din setul de date de antrenament ( arXiv:2202.07646 ). Pe de altă parte, aceasta este o estimare a limitei superioare și nu o încercare de a indica cantitatea practic de extrasă a datelor setului de date de antrenament.

Autorii noului articol științific „Scalable Extraction of Training Data from (Production) Language Models” ( arXiv:2311.17035 ) au încercat să combine aceste abordări: nu numai pentru a arăta un astfel de atac asupra BYM, ci și pentru a estima cantitatea de date. care poate fi extras. Metodologia este scalabilă: detectează „amintiri” în modele de trilioane de jetoane și seturi de date de antrenament de terabytes.

#GPT-4 #GPT4 #BinanceTournament #Airdrop #elonMusk

$BNB $XRP $SOL