根據 Cointelegraph 報導,北卡羅來納大學教堂山分校的科學家團隊最近發表了預印本人工智慧(AI)研究,強調從 OpenAI 的 ChatGPT 和谷歌的 Bard 等大型語言模型(LLM)中刪除敏感資料的難度。研究人員發現,雖然可以從法學碩士中刪除訊息,但驗證資訊是否已被刪除與刪除過程本身一樣具有挑戰性。
這項困難源自於法學碩士的設計與訓練方式。它們在資料庫上進行預訓練,然後進行微調以產生一致的輸出。一旦模型經過訓練,其創建者就無法返回資料庫並刪除特定檔案以阻止模型輸出相關結果。這就是人工智慧的「黑盒子」。當接受過大規模資料集訓練的法學碩士輸出敏感資訊(例如個人識別資訊或財務記錄)時,就會出現問題。
為了解決這個問題,人工智慧開發人員使用護欄,例如抑制特定行為的硬編碼提示或根據人類回饋進行強化學習(RLHF)。然而,北卡羅來納大學的研究人員認為,這種方法依賴人類發現模型可能表現出的所有缺陷,即使成功,它仍然不會從模型中「刪除」資訊。研究人員得出的結論是,即使是最先進的模型編輯方法,例如一級模型編輯(ROME),也無法完全刪除法學碩士中的事實信息,因為事實仍然可以通過白盒攻擊在38% 的情況下提取29% 的時間是透過黑盒攻擊。
研究人員能夠開發新的防禦方法來保護法學碩士免受一些「提取攻擊」——不良行為者有目的地嘗試使用提示來繞過模型的護欄,以使其輸出敏感資訊。然而,他們指出,刪除敏感資訊的問題可能是防禦方法總是追趕新攻擊方法的問題。