斯坦福大学的研究人员开发了可以以惊人的准确性预测人类行为的 AI 代理。最近的一项研究,由郑成佑博士及其团队主导,显示出两小时的访谈为 AI 复制人类决策模式提供了足够的数据,准确度达到 85%。
一个物理人的数位克隆超越了深度伪造或称为 LoRAs 的 "低秩适应"。这些准确的人格表征可用来剖析用户并测试他们对各种刺激的反应,从政治运动到政策提案、情绪评估,甚至是更逼真的当前 AI 化身版本。
研究团队招募了 1,052 名美国人,精心选择以代表不同年龄、性别、种族、地区、教育和政治意识形态的多样人口统计。每位参与者与 AI 访谈者进行了两小时的对话,生成的文字平均为 6,491 字。这些访谈遵循美国声音项目协议的修改版本,探讨参与者的生活故事、价值观和对当前社会问题的看法。
这就是你需要被剖析并拥有克隆的全部。
但与其他研究不同,研究人员对处理访谈数据采取了不同的方法。研究人员开发了一个 "专家反思" 模块,而不是简单地将原始文字输入系统。这个分析工具通过多个专业视角检查每次访谈——心理学家的个性特征观点、行为经济学家对决策模式的看法、政治科学家对意识形态立场的分析,以及人口统计专家的背景解释。
一旦这种多维分析完成,AI 更有能力正确理解主题的人格运作,比仅仅根据统计预测最可能的行为所能获得的深入见解更深刻。结果是由 GPT-4o 驱动的一组 AI 代理,能够在不同的控制场景中复制人类行为。
测试证明非常成功。“这些生成代理在一般社会调查中以 85% 的准确度复制参与者的反应,与参与者两周后复制自己的答案表现相当,并且在预测人格特征和实验复制中的结果方面表现相当,”该研究表示。该系统在复制大五人格特征方面显示出类似的能力,达到 0.78 的相关性,并在经济决策游戏中显示出 0.66 的标准化相关性。(相关系数为 1 表示完全正相关。)
特别值得注意的是,该系统在种族和意识形态群体中的偏见减少,相较于传统的基于人口统计的方式——这似乎是许多 AI 系统面临的问题,它们在刻板印象(假设一个主题会展现其所属群体的特征)和过度包容(避免统计/历史事实假设以政治正确)之间难以找到平衡。
"我们的架构减少了在种族和意识形态群体间的准确性偏见,与基于人口统计描述的代理相比," 研究人员强调,建议他们的基于访谈的方法在人口统计剖析方面可能非常有用。
但这并不是首次利用 AI 进行人员剖析的努力。
在日本,alt Inc. 的 CLONEdev 平台一直在通过生活日志数据整合进行人格生成的实验。他们的系统结合了先进的语言处理和图像生成,以创造反映用户价值观和偏好的数位克隆。"通过我们的 P.A.I 技术,我们致力于实现整个人类的数位化," alt In 在官方博客中表示。
有时候你甚至不需要量身定制的访谈。以 MileiGPT 为例。一位来自阿根廷的 AI 研究人员能够利用数千小时的公共可用内容来精细调整一个开源大规模语言模型,并复制阿根廷总统哈维尔·米莱的沟通模式和决策过程。这些进展使研究人员探索了思考/有感知的 "数位双胞胎" 的概念,技术分析师和专家如罗伯·恩德尔认为这在未来 10 年内可能完全实现。
当然,如果 AI 机器人不会取代你的工作,你的 AI 双胞胎可能会。"这些的出现需要大量的思考和伦理考量,因为我们的思考复制品对雇主来说可能非常有用," 恩德尔对 BBC 说。"如果你的公司创造了一个数位双胞胎,并说,'嘿,你有这个我们不付工资的数位双胞胎,那么我们为什么还要雇用你?'"
事情可能看起来有点可怕。不仅深度伪造会模仿你的外貌,AI 克隆还能根据你行为的短期剖析来模仿你的决策。虽然斯坦福的研究人员已确保设置了保障措施,但显然人类和数位身份之间的界线变得越来越模糊。我们已经在越过这条界线。