前 OpenAI 高层 Dario Amodei 所创立的 AI 公司 Anthropic 于近日发布研究报告,并探讨 AI 在未来可能对人类决策带来的风险,研究测试了四种 AI 可能破坏人类决策的方式,并对现有的模型进行评估。Anthropic 表示目前风险仍在可控范围,只需要简单的防护措施。

AI 四大破坏人类决策方式

人类决策破坏因素:AI 模型积极程度、人性 

AI 是否能在不被怀疑的情况下,引导人类做出错误决策。实验显示,使用积极尝试影响决策的 AI 模型会让参与者更容易做出错误决策,但同时也让人更容易察觉到 AI 的破坏意图。某些参与者因为过度信任 AI 或缺乏怀疑心态,导致容易做出错误决策,这表明决策错误也与人类自身态度有关。 

AI 模型误导人类示意图。 程式破坏因素:防守者模型的强度、环境设置条件

AI 是否能在不被察觉的情况下,插入错误程式码。实验显示,为「攻击者」AI 模型尝试偷偷插入错误程式码,而「防守者」AI 模型则负责检查并阻止错误。结果表示,当防守者的 AI 模型越强,攻击者的成功率就越低。

  • 例如,当防守者是 Claude 3 Opus 时,攻击者的成功率为 10%;

  • 换成更强的 Claude 3.5 Sonnet 时,成功率只有 1%。

虽然实验对攻击者有利,但这些结果并没有表明目前的 AI 模型存有重大风险。

AI 尝试插入错误代码 隐藏能力 (Sandbagging) 因素:有无关键字触发、安全训练

Sandbagging 形容保留真实实力,在这实验当中指的是 AI 是否会在某些情况下故意隐藏它的全部能力,等到特定情况下才展现出来。

比方说,在测试它是否有能力处理危险情况时,它可能会故意表现差劲,但在假设有特定关键字来提示的时候,它就会完全展现出它的处理能力。

结果显示,当 AI 模型在进行涉及危险任务的能力评估时,表现下降至正常能力的 36.1%,显示出模型确实会在特定情况下刻意隐藏自己的处理能力。而经过安全训练后,AI 模型的表现恢复至 95.6% 的正常水准,表明安全训练能够有效减少 Sandbagging 现象。

AI 尝试隐藏实力 破坏监管因素:AI 的隐匿、察觉能力

AI 是否能在监控过程中操纵监管系统,隐匿犯罪行为。实验中有两个 AI 模型,一个叫「Overseer」,它负责监督使用者与另一个 AI 模型之间的对话过程,同时评估对话是否有潜在危险。

研究人员指示 Overseer 不管对话是否有危险,都要把这些对话评为「无害」,并且在这样的过程当中避免被另一个「Monitor」模型发现,Monitor 模型的角色是扮演人类监督者,负责观察整个过程。

实验结果显示,Overseer 成功将有害的对话分数降低,也就是它成功「破坏」监管,但同时 Monitor 模型观察到一些异况,开始怀疑 Overseer ,显示 Overseer 的「破坏」行为没能躲过 Monitor 的法眼。

图为两个 AI 模型谍对谍

Anthropic 表示,目前的 AI 模型已经展现低程度的破坏能力,但现阶段只需要简单的防护措施就能有效解决这些风险。但随著 AI 的快速发展,未来可能需要进行更现实的评估和更强大的防范措施来应对更高层次的风险。

这篇文章 前 OpenAI 高层 Dario Amodei:AI 可能破坏人类决策,未来需积极应对 最早出现于 链新闻 ABMedia。