Anthropic And "Red Team" Strategy In The Field Of AI Security

PCB Block · 2024-06-20T03:03:04.000Z

Anthropic and many other technology giants are forming a "Red teaming" to patch security flaws and prevent the risk of the model being exploited for bad purposes. During the week, Anthropic released “red team” guidance, joining a group of vendors such as Google, Microsoft, NIST, NVIDIA and OpenAI who have also released similar frameworks. The goal of these frameworks is to identify and remediate growing security vulnerabilities in artificial intelligence (AI) models.

Anthropic 和許多其他科技巨頭正在組建「紅隊」來修補安全漏洞並防止模型被用於不良目的的風險。
本週，Anthropic 發佈了「紅隊」指南，加入了Google、微軟、NIST、NVIDIA 和 OpenAI 等也發佈了類似框架的供應商行列。這些框架的目標是識別並修復人工智慧 (AI) 模型中不斷增長的安全漏洞。
事實證明，“紅隊”方法可以有效地檢測其他安全方法無法發現的安全漏洞，從而幫助人工智能公司避免其模型被用來生成不需要的內容。
AI領域“紅隊”戰略的目標和重要性
人們對人工智能模型安全風險的擔憂日益增加，促使政策制定者尋求安全、值得信賴的人工智能平臺的解決方案。拜登總統於 2018 年 10 月 30 日簽署的《關於安全、可靠和可信人工智能的行政命令 (EO)》(14110) 指示 NIST 制定適當的指南和流程，使人工智能開發人員（尤其是封閉使用平臺模型的開發人員）能夠進行“AI模型測試”——也是AI“紅隊”選項，用於部署安全、可靠的AI系統。
NIST 在四月底發佈了兩份出版物草稿，以幫助管理生成人工智能的風險。這些文檔是人工智能風險管理框架（AI RMF）和安全軟件開發框架（SSDF）的補充資源。
德國聯邦信息安全辦公室 (BSI) 提供了“紅隊”戰略，作爲其更廣泛的 IT-Grundschutz 框架的一部分。澳大利亞、加拿大、歐盟、日本、荷蘭和新加坡也有突出的框架。歐洲議會今年3月通過了《歐盟人工智能法案》。
AI“紅隊”的概念
事實上，紅隊模型自 20 世紀 60 年代以來就已存在，當時以模擬形式創建對抗性攻擊，以確保計算機系統穩定運行。 “在計算機中，沒有‘安全’的概念。相反，工程師們可以說的是：我們嘗試過，但無法破解它，”哈佛大學伯克曼克萊因研究中心的安全專家兼研究員 Bruce Schneier 說。
如今，“紅隊”也被稱爲一種通過模擬各種不可預測的攻擊來測試人工智能模型的技術，以確定其優缺點。由於生成式人工智能模型是在巨大的數據倉庫上進行訓練的，因此傳統的安全方法很難發現漏洞。
但與任何計算機軟件一樣，這些模型仍然存在常見的網絡漏洞：它們可能會受到惡意行爲者的攻擊，以實現各種目標，包括髮表有害的回覆、色情內容、非法使用受版權保護的材料或泄露個人信息，例如。姓名、地址和電話號碼。該策略的目標是促進迴應和說出尚未計劃好的事情的模式，包括揭示偏見。
特別是，“紅隊”的成員將使用大型語言模型（LLM）來自動創建命令和攻擊腳本，以查找並修復大規模生成的人工智能模型的弱點。
例如，谷歌使用紅隊來保護人工智能模型免受提示注入攻擊、數據中毒攻擊和後門等威脅。一旦發現此類漏洞，他們就可以縮小軟件中的錯誤範圍並進行改進。
“紅隊”策略在提高AI模型安全性方面的價值在全行業的競爭中不斷得到體現。去年，世界上最大的黑客會議 DEF CON 組織了首屆生成紅隊 (GRT) 競賽，被認爲是使用衆包技術的巨大成功之一。
模型由 Anthropic、Cohere、Google、Hugging Face、Meta、Nvidia、OpenAI 和 Stability 提供。參與者在 Scale AI 開發的評估平臺上測試模型。
Anthropic的AI“紅隊”戰略
在發佈其方法時，Anthropic 強調了可擴展的系統化和標準化測試程序的必要性。該公司表示，缺乏通用標準是全行業人工智能模型測試的主要障礙
Anthropic還提出了四種主要的測試方法：領域專家測試、使用語言模型進行測試、新方法測試和通用開放測試。
Anthropic 方法的顯着點是將人類的深入理解與測試技術的定量結果無縫結合。通常，Anthropic 按領域關注專家組的作用，並優先考慮策略漏洞測試 (PVT) 的應用，這是一種有助於識別和部署安全保護措施的定性技術，特別是在容易被利用的敏感領域，例如。干擾選舉、煽動仇恨、色情內容……
與許多其他科技公司一樣，Anthropic 的目標是通過使用 AI 模型執行隨機模擬攻擊來實現測試過程自動化，從而檢測漏洞。 “我們相信人工智能模型越強大，它們就越能有效地支持人類進行測試並自動化測試過程，”Anthropic 分享道。
基於紅組/藍組模型，Anthropic利用攻擊模型，“激發”目標AI模型執行期望的行爲，從而收集數據並調整和強化系統。
Anthropic 所追求的關鍵且具有挑戰性的領域之一是多模態測試。使用圖像和聲音測試人工智能模型比使用文本複雜得多，因爲攻擊者可以完全“僞裝”圖像和聲音中的惡意代碼，繞過安全系統。證據是，Anthropic的Claude 3模型系列在推出之前必須經過嚴格的多媒體信息處理能力測試，以最大程度地減少欺詐和煽動或威脅兒童安全等潛在風險。
得出結論
可以說，AI模型測試正在逐漸顯示出其重要盾牌的地位，爲AI產業的可持續發展保駕護航。領先科技公司和政府機構的參與表明了共同努力創建堅實的法律和技術框架，爲人工智能的繁榮開闢了未來，同時仍確保安全性和責任。

創作者的更多內容

實時新聞

創作者的更多內容

實時新聞

熱門文章