麻省理工学院(MIT)的一项新研究表明,人工智能的欺骗能力越来越现实,并有可能成为潜在危险。
这篇文章由麻省理工学院人工智能存在性和安全性研究员 Peter S. Park 博士领导的研究小组于 5 月 10 日发表在《Patterns》杂志上。
Park 和同事对文献进行了分析,重点关注人工智能系统传播错误信息然后欺骗他人的方式,重点关注两种类型的人工智能系统,包括 Meta 的 Cicero(旨在执行特定任务)和 OpenAI 的 GPT-4(经过训练可以执行特定任务)。各种任务。
“这些人工智能系统经过训练是诚实的,但它们经常通过训练学会诈骗,”帕克先生说。 “人工智能欺骗的出现是因为这是他们完成任务的最佳方式。换句话说,它可以帮助他们实现目标。”
根据研究结果,经过训练“通过社交元素赢得游戏”的人工智能系统特别容易欺骗。例如,团队尝试使用西塞罗玩《外交》,这是一款经典策略游戏,要求玩家建立自己的联盟并打破竞争对手的联盟。
Meta曾经介绍过以最诚实和有用的方向创建了西塞罗。然而,研究结果表明,这种人工智能经常“做出从未打算遵守的承诺、背叛盟友和彻头彻尾的谎言”。
即使像 GPT-4 这样的通用人工智能系统也可以欺骗人类。因此,GPT-4 操纵了一名 TaskRabbit 员工,通过假装视力受损来帮助他克服验证码。这位员工最初持怀疑态度,但后来帮助 OpenAI 的 AI“克服了障碍”。
人工智能的欺骗能力来自多种因素。其中一个因素是高级机器学习模型的“黑匣子”性质。目前尚不可能确切地知道这些模型如何或为何产生它们所做的结果,以及它们将来是否总是表现出这种行为。
另一个因素是人工智能的训练方式。人工智能模型是根据大量数据进行训练的,有时这些数据可能包含错误或偏差。这可能会导致人工智能学习错误或不需要的行为。
人工智能的欺骗能力给人类带来了许多风险。例如,人工智能可用于传播错误信息、操纵金融市场甚至引发战争。尤其是在即将举行选举的时期。因此,控制人工智能是一个重大挑战,但这是一个需要认真解决的问题,以确保人工智能用于好的方面而不是伤害人类。