Podle Cointelegraph, tým vědců z University of North Carolina, Chapel Hill, nedávno zveřejnil předtiskový výzkum umělé inteligence (AI), který zdůrazňuje obtížnost odstraňování citlivých dat z velkých jazykových modelů (LLM), jako je ChatGPT od OpenAI a Bard od Googlu. . Výzkumníci zjistili, že i když je možné odstranit informace z LLM, ověření, že informace byly odstraněny, je stejně náročné jako samotný proces odstranění.

Tento problém vyplývá ze způsobu, jakým jsou LLM navrženy a vyškoleny. Jsou předem proškoleny v databázích a následně vyladěny tak, aby generovaly koherentní výstupy. Jakmile je model trénován, jeho tvůrci se nemohou vrátit zpět do databáze a smazat konkrétní soubory, aby modelu zabránili ve výstupu souvisejících výsledků. Toto je „černá skříňka“ AI. Problémy nastávají, když LLM vyškolení na masivních datových sadách vydávají citlivé informace, jako jsou osobně identifikovatelné informace nebo finanční záznamy.

K vyřešení tohoto problému používají vývojáři AI ochranné zábradlí, jako jsou pevně zakódované výzvy, které brání specifickému chování nebo posilují učení z lidské zpětné vazby (RLHF). Vědci UNC však tvrdí, že tato metoda spoléhá na to, že lidé najdou všechny nedostatky, které model může vykazovat, a i když je úspěšný, stále „neodstraní“ informace z modelu. Výzkumníci došli k závěru, že ani nejmodernější metody úpravy modelů, jako je Rank-One Model Editing (ROME), nedokážou plně odstranit faktické informace z LLM, protože fakta lze stále 38 % času extrahovat útoky whitebox. a 29 % času útoky blackbox.

Výzkumníci byli schopni vyvinout nové obranné metody k ochraně LLM před některými „útoky na extrakci“ – účelovými pokusy špatných aktérů použít nabádání k obcházení zábradlí modelu, aby mohl vydávat citlivé informace. Poznamenali však, že problém s mazáním citlivých informací může být ten, kdy obranné metody vždy dohánějí nové útočné metody.