竞技成就:AI 表现的新标准

OpenAI 表示,OpenAI o1 展现了在竞技程式设计、数学和科学领域的非凡能力。该模型在 Codeforces 这个知名竞技程式设计平台的表现达到第 89 个百分位,并位居美国数学奥林匹亚竞赛 (AIME) 的前 500 名。此外,在测试物理、生物和化学专业知识的 GPQA 基准测试中,o1 的准确度超越了人类博士水准。

OpenAI o1 已开放使用

尽管 OpenAI 正在努力使 o1 与现有模型一样易于使用,早期版本 OpenAI o1-preview 已经在 ChatGPT 和受信任的 API 用户中可用。这一早期接入旨在展示 o1 强大的推理能力及其重新定义 AI 应用的潜力。

数据高效的 AI 推理方法:关联思考

该公司表示,OpenAI o1 的成功源于其大规模强化学习算法,该算法使用「关联思考」(chain of thought) 方法来教导模型进行有效推理。这种训练方法具有高度的数据效率,使得模型能够随著强化学习的增强,和测试场景中思考时间的增加而稳定进步。与传统的大型语言模型预训练不同,这种方法具有独特的扩展限制,OpenAI 正积极探索其中的奥秘。

推理密集型基准测试超越 GPT-4o

为强调 o1 相较于其前身 GPT-4o 的推理改进,OpenAI 将该模型测试于各类人类考试和机器学习基准测试中。结果显示,o1 在大多数推理密集型任务中大幅超越 GPT-4o。在 2024 年 AIME 考试中,GPT-4o 仅解决了 12% 的问题,而 o1 在每个问题单一样本情况下平均解决 74%,在 64 个样本共识下达到 83%,在 1,000 个样本使用评分函数重新排序后达到 93%。这一表现使 o1 排名全国前 500 名,超越进入美国数学奥林匹亚的门槛。

在科学基准测试中超越人类专家

OpenAI o1 在 GPQA diamond 基准测试中同样表现出色,该测试针对化学、物理和生物领域的专业知识。OpenAI 邀请博士专家回答这些问题,结果显示 o1 超越了人类专家,成为首个在该基准测试中达到此成就的模型。虽然这并不意味 o1 在所有方面都优于博士学位,但它突显了该模型在特定领域的卓越问题解决能力。

在其他机器学习基准测试中,o1 继续超越现有的最先进模型。启用视觉感知功能后,o1 在 MMMU 中得分 78.2%,表现与人类专家相当,并在 57 个 MMLU 子类别中的 54 个超越 GPT-4o。

类似人类的思考方式:关联思考

OpenAI o1 采用类似人类在回答复杂问题前的「关联思考」方法。这种方法可以让模型透过强化学习不断优化策略,将困难的步骤分解为更简单的任务,并在必要时探索替代方法。这一学习过程显著提升了模型的推理能力,使其能更好地处理挑战性问题。

程式设计表现可与人类工程师竞争

OpenAI 针对程式设计训练了一个版本的 o1,并在竞技程式设计中取得了显著成果。该模型在 2024 年国际资讯奥林匹亚 (IOI) 中获得 213 分,排名第 49 个百分位,展示了其在类似人类竞赛条件下的程式设计技能。在放宽提交限制后,模型表现大幅提升,单题提交 10,000 次后得分超过金牌门槛。

在 Codeforces 主办的模拟竞技程式设计比赛中,o1 的 Elo 评分达到 1807,超越 93% 的人类竞争者,并远远超过 GPT-4o 的表现。

人类偏好评估:o1 vs. GPT-4o

OpenAI 也对 o1-preview 与 GPT-4o 于各类开放式提示下的回应进行了人类偏好评估。在数据分析、程式设计和数学等推理密集型领域,人类训练师显著偏好 o1-preview。然而,o1-preview 在某些自然语言任务中不被偏爱,显示其不一定适用于所有使用场景。

OpenAI 此次强调安全性

o1 的「关联思考」方法不仅提升了推理能力,还为安全性提供了新机会。OpenAI 已将安全政策整合进模型的推理过程,使其更能遵循人类的价值观和原则。此方法使模型在关键安全基准上表现有所提升,展现了其在处理复杂伦理情境时的增强稳健性。

为保护竞争优势并确保模型保持初衷,OpenAI 决定不对用户显示 o1 的原始关联思考。取而代之的是,该模型会生成思维过程的摘要,这些摘要将指导最终答案,目的是在不妥协安全性的情况下保持透明度。

OpenAI o1 在 AI 推理领域迈出了重要的一步,在竞技程式设计、数学和科学领域展现了卓越表现。随著 OpenAI 持续改进该模型,未来版本有望进一步对齐人类价值观,并在编程、科学等复杂推理密集型任务中开创新的应用前景。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,使用者应考虑本文的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

  • 本文经授权转载自:《链新闻》