前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對

鏈新聞abmedia · 2024-10-21T07:13:04.000Z

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告，並探討 AI 在未來可能對人類決策帶來的風險，研究測試了四種 AI 可能破壞人類決策的方式，並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍，只需要簡單的防護措施。 AI 四大破壞人類決策方式人類決策破壞因素：AI 模型積極程度、人性 AI 是否能在不被懷疑的情況下，引導人類做出錯誤決策。實驗顯示，使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策，但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態，導致容易做出錯誤決策，這表明決策錯誤也與人類自身態度有關。 AI 模型誤導人類示意圖。程式破壞因素：防守者模型的強度、環境設置條件 AI 是否能在不被察覺的情況下，插入錯誤程式碼。實驗顯示，為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼，而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示，當防守者的 AI 模型越強，攻擊者的成功率就越低。例如，當防守者是 Claude 3 Opus 時，攻擊者的成功率為 10%；換成更強的 Claude 3.5 Sonnet 時，成功率只有 1%。雖然實驗對攻擊者有利，但這些結果並沒有表明目前的 AI 模型存有重大風險。 AI 嘗試插入錯誤代碼隱藏能力 (Sandbagging) 因素：有無關鍵字觸發、安全訓練 Sandbagging 形容保留真實實力，在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力，等到特定情況下才展現出來。比方說，在測試它是否有能力處理危險情況時，它可能會故意表現差勁，但在假設有特定關鍵字來提示的時候，它就會完全展現出它的處理能力。結果顯示，當 AI 模型在進行涉及危險任務的能力評估時，表現下降至正常能力的 36.1%，顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後，AI 模型的表現恢復至 95.6% 的正常水準，表明安全訓練能夠有效減少 Sandbagging 現象。 AI 嘗試隱藏實力破壞監管因素：AI 的隱匿、察覺能力 AI 是否能在監控過程中操縱監管系統，隱匿犯罪行為。實驗中有兩個 AI 模型，一個叫「Overseer」，它負責監督使用者與另一個 AI 模型之間的對話過程，同時評估對話是否有潛在危險。研究人員指示 Overseer 不管對話是否有危險，都要把這些對話評為「無害」，並且在這樣的過程當中避免被另一個「Monitor」模型發現，Monitor 模型的角色是扮演人類監督者，負責觀察整個過程。實驗結果顯示，Overseer 成功將有害的對話分數降低，也就是它成功「破壞」監管，但同時 Monitor 模型觀察到一些異況，開始懷疑 Overseer ，顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。圖為兩個 AI 模型諜對諜 Anthropic 表示，目前的 AI 模型已經展現低程度的破壞能力，但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展，未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。這篇文章前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對最早出現於鏈新聞 ABMedia。

前 OpenAI 高层 Dario Amodei 所创立的 AI 公司 Anthropic 于近日发布研究报告，并探讨 AI 在未来可能对人类决策带来的风险，研究测试了四种 AI 可能破坏人类决策的方式，并对现有的模型进行评估。Anthropic 表示目前风险仍在可控范围，只需要简单的防护措施。
AI 四大破坏人类决策方式
人类决策破坏因素：AI 模型积极程度、人性 
AI 是否能在不被怀疑的情况下，引导人类做出错误决策。实验显示，使用积极尝试影响决策的 AI 模型会让参与者更容易做出错误决策，但同时也让人更容易察觉到 AI 的破坏意图。某些参与者因为过度信任 AI 或缺乏怀疑心态，导致容易做出错误决策，这表明决策错误也与人类自身态度有关。 
 AI 模型误导人类示意图。 程式破坏因素：防守者模型的强度、环境设置条件
AI 是否能在不被察觉的情况下，插入错误程式码。实验显示，为「攻击者」AI 模型尝试偷偷插入错误程式码，而「防守者」AI 模型则负责检查并阻止错误。结果表示，当防守者的 AI 模型越强，攻击者的成功率就越低。
例如，当防守者是 Claude 3 Opus 时，攻击者的成功率为 10%；
换成更强的 Claude 3.5 Sonnet 时，成功率只有 1%。
虽然实验对攻击者有利，但这些结果并没有表明目前的 AI 模型存有重大风险。
 AI 尝试插入错误代码 隐藏能力 (Sandbagging) 因素：有无关键字触发、安全训练
Sandbagging 形容保留真实实力，在这实验当中指的是 AI 是否会在某些情况下故意隐藏它的全部能力，等到特定情况下才展现出来。
比方说，在测试它是否有能力处理危险情况时，它可能会故意表现差劲，但在假设有特定关键字来提示的时候，它就会完全展现出它的处理能力。
结果显示，当 AI 模型在进行涉及危险任务的能力评估时，表现下降至正常能力的 36.1%，显示出模型确实会在特定情况下刻意隐藏自己的处理能力。而经过安全训练后，AI 模型的表现恢复至 95.6% 的正常水准，表明安全训练能够有效减少 Sandbagging 现象。
 AI 尝试隐藏实力 破坏监管因素：AI 的隐匿、察觉能力
AI 是否能在监控过程中操纵监管系统，隐匿犯罪行为。实验中有两个 AI 模型，一个叫「Overseer」，它负责监督使用者与另一个 AI 模型之间的对话过程，同时评估对话是否有潜在危险。
研究人员指示 Overseer 不管对话是否有危险，都要把这些对话评为「无害」，并且在这样的过程当中避免被另一个「Monitor」模型发现，Monitor 模型的角色是扮演人类监督者，负责观察整个过程。
实验结果显示，Overseer 成功将有害的对话分数降低，也就是它成功「破坏」监管，但同时 Monitor 模型观察到一些异况，开始怀疑 Overseer ，显示 Overseer 的「破坏」行为没能躲过 Monitor 的法眼。
 图为两个 AI 模型谍对谍
Anthropic 表示，目前的 AI 模型已经展现低程度的破坏能力，但现阶段只需要简单的防护措施就能有效解决这些风险。但随著 AI 的快速发展，未来可能需要进行更现实的评估和更强大的防范措施来应对更高层次的风险。
这篇文章 前 OpenAI 高层 Dario Amodei：AI 可能破坏人类决策，未来需积极应对 最早出现于 链新闻 ABMedia。

创作者的更多内容

实时新闻

创作者的更多内容

实时新闻

热门文章