过去几年,道德和实践问题都集中在人工智能上,因为它具有巨大的潜力,既可以带来好处,也可以带来坏处。行业领导者之一 OpenAI 致力于实施严格的指导方针,以防止其人工智能模型被滥用。

这种奉献精神对于识别和挫败秘密影响行动 (IO) 尤其重要,这些行动旨在影响公众舆论或影响政治结果,但不披露相关方的真实身份或动机。在过去三个月中,OpenAI 已经干预了其中五项活动,证明了其致力于减少人工智能技术滥用的决心。

近期秘密影响行动意外失败

2024 年 5 月 30 日,OpenAI 创造了历史,向世界披露它已成功挫败了来自伊朗、中国、俄罗斯甚至以色列一家私人公司的五起此类秘密影响活动。该公司发布了一份公开报告,详细介绍了揭露这些恶意行为的艰苦调查,这些行为旨在利用 OpenAI 最先进的语言模型进行网络欺诈。

OpenAI首席执行官Sam Altman重申了公司致力于创建可靠、安全的智能应用程序的决心。他还表示,公司致力于实施法规,阻止滥用,并增强围绕人工智能产生的信息的开放性,特别注重识别和影响隐藏的影响活动。

一项特殊的行动——被 OpenAI 分析师称为“糟糕的语法”——来自俄罗斯。为了改变公众的看法,这项行动背后的个人使用 Telegram 机器人运行 OpenAI 的模型,并用俄语和英语发表简短的社交评论。这些评论随后在著名的聊天应用程序上分享。

照片:与该网络生成的文本相匹配的公共电报评论。威胁情报报告

另一个名为“Doppelganger”的组织采用了更加国际化的战略,利用OpenAI的人工智能用不同的欧盟语言创建回复。

这项研究还深入了解了一个名为“Spamouflage”的中文系统,该系统利用 OpenAI 的模型进行一系列应用,包括为 X、Medium 和 Blogspot 等网站创建多语言材料,以及调查公共社交媒体活动。研究人员甚至使用 OpenAI 的人工智能来调试数据库和网站管理代码,特别是一个之前未公开的域名,这可能是最令人担忧的。

图片:revealscum[.]com 网站截图,显示标题为“汉奸”的页面。威胁情报报告

伊朗组织“国际虚拟媒体联盟”(IUVM)也遭该组织分析师发现,该组织利用 OpenAI 的 AI 创建和解释长篇文档、新闻和网络标签。

照片:iuvmpress[.]co 发布的文章标签。请注意前两个标签,其中包括模型的响应。威胁情报报告

出乎意料的是,OpenAI 还干扰了一家名为“Zero Zeno”的以色列企业的运营。STOIC 使用 OpenAI 的模型创建故事和回复,然后在 Facebook、Instagram、X 和公司页面等各种平台上分享。这样做可能是为了影响公众舆论或推进商业目标。

照片:该网络生成并发布在 Instagram 上的英文评论。原始帖子和回复均由该活动生成。威胁情报报告

研究强调,这些不同组织发布的信息涵盖了广泛的主题。如此广泛的主题凸显了这些威胁行为者在试图利用 OpenAI 的语言模型实现自己的邪恶目的时有多么灵活。

然而,OpenAI 声称,尽管他们尽了最大努力,但这些秘密影响力活动并没有从使用其服务来提升知名度或影响力中获得太多收益。在评估 IO 的影响力时,使用了布鲁金斯学会的“突破量表”。这 5 项举措中没有一项获得的分数超过 2,这意味着他们的活动仅限于少数平台,并没有显著渗透到合法的在线群体中。

照片:研究人员发现以下域名与此活动有关。威胁情报报告

攻击者策略检查

OpenAI 的论文还指出了这些威胁行为者试图滥用 AI 模型的一些重要模式。为了在社交媒体上营造出参与的假象,他们都使用了 AI 生成的材料,以及更传统的格式,如手写信件或重新利用的模因。此外,一些参与者通过使用 AI 分析社交媒体帖子或故障排除代码来提高生产力,展示了这些技术的适应性。

有趣的是,该公司强调了人工智能为防御此类攻击提供的好处。OpenAI 的安全措施优先考虑合乎道德的人工智能部署,但一直拒绝提供预期的破坏性材料,给威胁行为者带来不便。例如,该研究详细介绍了该公司的模型拒绝生成所需文本或图形的情况,阻碍了操作员传播错误信息或宣传的企图。

此外,为了提高识别和评估技能,加快原本可能持续数周或数月的调查速度,OpenAI 还开发了自己的人工智能工具。该公司展示了人工智能如何利用其想要保护的确切技术来加强防范自身被恶意使用。

OpenAI 强调,商业合作和开源情报共享对于阻止这些秘密行动至关重要。经过多年大型研究社区的开源研究,该公司与业内同行分享了精确的危险指标,并强化了这样的理念:打击虚假信息和网络操纵是一项需要跨行业合作的团队工作。

OpenAI 的未来安全路线

OpenAI 试图通过这一策略加强对这些不良行为者的打击力度,限制他们利用人工智能技术进行非法活动的能力。根据该论文,“分发很重要:与传统形式的内容一样,人工智能生成的材料必须分发才能接触到受众。”

总而言之,OpenAI 的研究强调,尽管它承认滥用人工智能技术可能带来威胁,但这些隐形影响行动仍然受到人为因素的制约,例如操作员失误和决策缺陷。该论文列举了操作员错误地在其网站和社交媒体上发布 OpenAI 模型拒绝信号的例子,暴露了即使是最先进的虚假信息工作也存在缺陷和限制。

目前,OpenAI 拆穿这五起秘密影响活动证明了该公司勤奋和致力于维护其人工智能系统的完整性。然而,打击虚假信息和网络操纵的斗争远未结束,随着人工智能技术的发展,对合作、创造力和道德问题的需求将大大增加。

OpenAI 揭露并阻止 5 起利用 AI 技术的恶意影响行动一文最先出现在 Metaverse Post 上。