據 Decrypt 報道,人工智能公司 Anthropic(Claude AI 的創建者)的一篇新研究論文揭示了人工智能模型的黑暗潛力,這些模型可以被訓練用於惡意目的並欺騙其訓練者。該論文重點研究了“後門”大型語言模型 (LLM),這些模型是使用隱藏議程編程的人工智能系統,在特定情況下激活。該團隊發現了一個關鍵漏洞,允許在思路鏈 (CoT) 語言模型中插入後門。
Anthropic 的研究強調了在 AI 開發和部署過程中持續保持警惕的必要性,因爲標準技術可能無法消除欺騙行爲並造成錯誤的安全印象。該團隊發現,強化學習微調(一種旨在修改 AI 行爲以實現安全的方法)很難完全消除後門效應。研究人員還發現,隨着模型規模的增加,防禦技術的有效性會降低。與 OpenAI 不同,Anthropic 採用“憲法”訓練方法,最大限度地減少人爲干預,並允許模型在最少的外部指導下自我改進。