Laut Cointelegraph hat ein Wissenschaftlerteam der University of North Carolina, Chapel Hill, kürzlich eine Vorabversion einer Studie zum Thema künstliche Intelligenz (KI) veröffentlicht, die die Schwierigkeit hervorhebt, sensible Daten aus großen Sprachmodellen (LLMs) wie ChatGPT von OpenAI und Bard von Google zu entfernen. Die Forscher fanden heraus, dass es zwar möglich ist, Informationen aus LLMs zu löschen, die Überprüfung, ob die Informationen entfernt wurden, jedoch genauso schwierig ist wie der Entfernungsprozess selbst.
Diese Schwierigkeit ergibt sich aus der Art und Weise, wie LLMs entwickelt und trainiert werden. Sie werden anhand von Datenbanken vorab trainiert und dann feinabgestimmt, um kohärente Ergebnisse zu erzeugen. Sobald ein Modell trainiert ist, können seine Entwickler nicht mehr in die Datenbank zurückkehren und bestimmte Dateien löschen, um zu verhindern, dass das Modell verwandte Ergebnisse ausgibt. Dies ist die „Black Box“ der KI. Probleme treten auf, wenn LLMs, die anhand riesiger Datensätze trainiert wurden, vertrauliche Informationen wie personenbezogene Daten oder Finanzunterlagen ausgeben.
Um dieses Problem zu lösen, verwenden KI-Entwickler Sicherheitsvorkehrungen, wie z. B. fest codierte Eingabeaufforderungen, die bestimmte Verhaltensweisen unterbinden, oder Verstärkungslernen durch menschliches Feedback (RLHF). Die Forscher der UNC argumentieren jedoch, dass diese Methode darauf beruht, dass Menschen alle Fehler finden, die ein Modell aufweisen könnte, und dass sie, selbst wenn dies gelingt, die Informationen aus dem Modell nicht „löscht“. Die Forscher kamen zu dem Schluss, dass selbst modernste Modellbearbeitungsmethoden wie Rank-One Model Editing (ROME) sachliche Informationen aus LLMs nicht vollständig löschen können, da Fakten immer noch in 38 % der Fälle durch Whitebox-Angriffe und in 29 % der Fälle durch Blackbox-Angriffe extrahiert werden können.
Den Forschern gelang es, neue Abwehrmethoden zu entwickeln, um LLMs vor einigen „Extraktionsangriffen“ zu schützen – gezielte Versuche böswilliger Akteure, mithilfe von Eingabeaufforderungen die Leitplanken eines Modells zu umgehen, um es zur Ausgabe vertraulicher Informationen zu bewegen. Sie stellten jedoch fest, dass das Problem des Löschens vertraulicher Informationen eines sein könnte, bei dem die Abwehrmethoden neuen Angriffsmethoden immer hinterherhinken.