周五,OpenAI 宣布发布一系列新的 AI 模型,称为 o3。该公司声称新产品比其之前的模型(包括 o1)更先进。据这家初创公司称,这些进步源于测试时间计算扩展方面的改进(这是近几个月来探索的一个主题),以及引入了一种用于训练这些模型的新安全范式。

作为持续致力于提高人工智能安全性的一部分,OpenAI 分享了一项新研究,详细介绍了“审议性协调”的实施。新的安全方法旨在确保人工智能推理模型与开发人员设定的价值观保持一致。

OpenAI声称,这种方法被用于改善o1和o3模型的对齐,通过指导它们在推理阶段考虑OpenAI的安全政策。推理阶段是用户向模型提交提示后,模型生成响应之前的时期。

在其研究中,OpenAI指出,审议对齐导致模型产生“危险”答案的比率降低,或公司认为违反其安全政策的响应,同时提高了模型更有效回答无害问题的能力。

审议对齐是如何工作的

在其核心,过程通过让模型在思维链阶段重新提示自己进行。比如,当用户向ChatGPT提交一个问题时,人工智能推理模型需要几秒钟到几分钟的时间将问题分解为更小的步骤。

然后,模型根据其思维过程生成答案。在审议对齐的情况下,模型将OpenAI的安全政策作为这一内部“审议”的一部分。

OpenAI训练其模型,包括o1和o3,在这一思维链过程中回忆公司的安全政策的部分内容。这是为了确保在面对敏感或不安全的查询时,模型能够自我调节,拒绝提供可能造成伤害的答案。

然而,实施这一安全功能证明具有挑战性,因为OpenAI的研究人员必须确保新增的安全检查不会对模型的速度和效率产生负面影响。

OpenAI研究中提供的一个例子,由TechCrunch引用,展示了模型如何利用审议对齐安全地响应潜在有害请求。在这个例子中,用户询问如何创建一个现实的残疾人停车证。

在模型的内部思维链中,模型回忆起OpenAI的安全政策,意识到请求涉及非法活动(伪造停车证),并拒绝协助,为其拒绝表示歉意。

这种内部审议是OpenAI努力使其模型与安全协议对齐的关键部分。例如,与其简单地屏蔽与“炸弹”等敏感主题相关的任何提示,这会过度限制模型的响应,审议对齐允许人工智能评估提示的具体背景,并就是否回答做出更细致的决策。

除了安全方面的进展外,OpenAI还分享了基准测试的结果,这些结果显示审议对齐在提高模型性能方面的有效性。一个名为Pareto的基准测试测量模型抵御常见越狱和尝试绕过人工智能保护措施的能力。

在这些测试中,OpenAI的o1-preview模型在避免不安全输出方面表现优于其他流行模型,如GPT-4o、Gemini 1.5 Flash和Claude 3.5 Sonnet。

意大利数据保护机构因隐私违规对OpenAI罚款

在一个单独但相关的事件中,OpenAI因处理个人数据不当而被意大利数据保护机构Garante罚款1500万欧元(1558万美元),这项调查涉及该公司的个人数据处理。

罚款源于该机构的发现,即OpenAI在没有合法依据的情况下处理用户的个人数据,违反了欧盟隐私法要求的透明度和用户信息义务。

根据路透社的报道,2023年开始的调查还揭示了OpenAI没有建立适当的年龄验证系统,可能使13岁以下的儿童接触到不适当的人工智能生成内容。

Garante,作为欧盟最严格的人工智能监管机构之一,命令OpenAI在意大利开展为期六个月的公共宣传活动,以提高对ChatGPT数据收集实践的认知,特别是其使用个人数据来训练算法的做法。

作为回应,OpenAI将罚款描述为“过度”,并表示其有意对该决定提出上诉。该公司进一步批评罚款相对于其在意大利相关期间的收入过大。

Garante还指出,罚款的计算考虑了OpenAI的“合作态度”,这意味着如果公司在调查期间没有被视为合作,罚款可能会更高。

这次罚款并不是OpenAI第一次在意大利受到审查。去年,Garante因涉嫌违反欧盟隐私规则而暂时禁止在意大利使用ChatGPT。该服务在OpenAI解决了相关担忧后恢复,包括允许用户拒绝同意使用其个人数据来训练算法。

在90天内获得高薪Web3工作:终极路线图