コインテレグラフによると、ノースカロライナ大学チャペルヒル校の科学者チームが最近、OpenAIのChatGPTやGoogleのBardのような大規模言語モデル(LLM)から機密データを削除することの難しさを浮き彫りにする人工知能(AI)研究のプレプリントを発表した。研究者らは、LLMから情報を削除することは可能だが、情報が削除されたことを確認することは削除プロセス自体と同じくらい難しいことを発見した。

この難しさは、LLM の設計とトレーニング方法から生じます。LLM はデータベースで事前トレーニングされ、その後、一貫した出力を生成するように微調整されます。モデルがトレーニングされると、作成者はデータベースに戻って特定のファイルを削除し、モデルが関連する結果を出力しないようにすることはできません。これが AI の「ブラック ボックス」です。大量のデータセットでトレーニングされた LLM が、個人を特定できる情報や財務記録などの機密情報を出力すると、問題が発生します。

この問題に対処するため、AI 開発者は、特定の動作を禁止するハードコードされたプロンプトや、人間のフィードバックによる強化学習 (RLHF) などのガードレールを使用しています。しかし、UNC の研究者は、この方法はモデルが示す可能性のあるすべての欠陥を人間が見つけることに依存しており、成功したとしてもモデルから情報を「削除」することはできないと主張しています。研究者は、Rank-One Model Editing (ROME) などの最先端のモデル編集方法でさえ、LLM から事実情報を完全に削除することはできず、ホワイトボックス攻撃では 38%、ブラックボックス攻撃では 29% の確率で事実が抽出される可能性があると結論付けました。

研究者らは、LLM を「抽出攻撃」から保護するための新しい防御方法を開発することができました。「抽出攻撃」とは、悪意のある人物がプロンプトを使用してモデルのガードレールを回避し、機密情報を出力させようとする意図的な試みです。しかし、機密情報を削除するという問題は、防御方法が常に新しい攻撃方法に追いつこうとしている問題である可能性があると研究者らは指摘しました。