超越人类博士！OpenAI o1程式设计再进化，数学奥林匹亚进前五百

竞技成就：AI 表现的新标准
OpenAI 表示，OpenAI o1 展现了在竞技程式设计、数学和科学领域的非凡能力。该模型在 Codeforces 这个知名竞技程式设计平台的表现达到第 89 个百分位，并位居美国数学奥林匹亚竞赛 (AIME) 的前 500 名。此外，在测试物理、生物和化学专业知识的 GPQA 基准测试中，o1 的准确度超越了人类博士水准。
OpenAI o1 已开放使用
尽管 OpenAI 正在努力使 o1 与现有模型一样易于使用，早期版本 OpenAI o1-preview 已经在 ChatGPT 和受信任的 API 用户中可用。这一早期接入旨在展示 o1 强大的推理能力及其重新定义 AI 应用的潜力。
数据高效的 AI 推理方法：关联思考
该公司表示，OpenAI o1 的成功源于其大规模强化学习算法，该算法使用「关联思考」(chain of thought) 方法来教导模型进行有效推理。这种训练方法具有高度的数据效率，使得模型能够随著强化学习的增强，和测试场景中思考时间的增加而稳定进步。与传统的大型语言模型预训练不同，这种方法具有独特的扩展限制，OpenAI 正积极探索其中的奥秘。
推理密集型基准测试超越 GPT-4o
为强调 o1 相较于其前身 GPT-4o 的推理改进，OpenAI 将该模型测试于各类人类考试和机器学习基准测试中。结果显示，o1 在大多数推理密集型任务中大幅超越 GPT-4o。在 2024 年 AIME 考试中，GPT-4o 仅解决了 12% 的问题，而 o1 在每个问题单一样本情况下平均解决 74%，在 64 个样本共识下达到 83%，在 1,000 个样本使用评分函数重新排序后达到 93%。这一表现使 o1 排名全国前 500 名，超越进入美国数学奥林匹亚的门槛。
在科学基准测试中超越人类专家
OpenAI o1 在 GPQA diamond 基准测试中同样表现出色，该测试针对化学、物理和生物领域的专业知识。OpenAI 邀请博士专家回答这些问题，结果显示 o1 超越了人类专家，成为首个在该基准测试中达到此成就的模型。虽然这并不意味 o1 在所有方面都优于博士学位，但它突显了该模型在特定领域的卓越问题解决能力。
在其他机器学习基准测试中，o1 继续超越现有的最先进模型。启用视觉感知功能后，o1 在 MMMU 中得分 78.2%，表现与人类专家相当，并在 57 个 MMLU 子类别中的 54 个超越 GPT-4o。
类似人类的思考方式：关联思考
OpenAI o1 采用类似人类在回答复杂问题前的「关联思考」方法。这种方法可以让模型透过强化学习不断优化策略，将困难的步骤分解为更简单的任务，并在必要时探索替代方法。这一学习过程显著提升了模型的推理能力，使其能更好地处理挑战性问题。
程式设计表现可与人类工程师竞争
OpenAI 针对程式设计训练了一个版本的 o1，并在竞技程式设计中取得了显著成果。该模型在 2024 年国际资讯奥林匹亚 (IOI) 中获得 213 分，排名第 49 个百分位，展示了其在类似人类竞赛条件下的程式设计技能。在放宽提交限制后，模型表现大幅提升，单题提交 10,000 次后得分超过金牌门槛。
在 Codeforces 主办的模拟竞技程式设计比赛中，o1 的 Elo 评分达到 1807，超越 93% 的人类竞争者，并远远超过 GPT-4o 的表现。
人类偏好评估：o1 vs. GPT-4o
OpenAI 也对 o1-preview 与 GPT-4o 于各类开放式提示下的回应进行了人类偏好评估。在数据分析、程式设计和数学等推理密集型领域，人类训练师显著偏好 o1-preview。然而，o1-preview 在某些自然语言任务中不被偏爱，显示其不一定适用于所有使用场景。
OpenAI 此次强调安全性
o1 的「关联思考」方法不仅提升了推理能力，还为安全性提供了新机会。OpenAI 已将安全政策整合进模型的推理过程，使其更能遵循人类的价值观和原则。此方法使模型在关键安全基准上表现有所提升，展现了其在处理复杂伦理情境时的增强稳健性。
为保护竞争优势并确保模型保持初衷，OpenAI 决定不对用户显示 o1 的原始关联思考。取而代之的是，该模型会生成思维过程的摘要，这些摘要将指导最终答案，目的是在不妥协安全性的情况下保持透明度。
OpenAI o1 在 AI 推理领域迈出了重要的一步，在竞技程式设计、数学和科学领域展现了卓越表现。随著 OpenAI 持续改进该模型，未来版本有望进一步对齐人类价值观，并在编程、科学等复杂推理密集型任务中开创新的应用前景。
【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，使用者应考虑本文的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。
本文经授权转载自：《链新闻》
超越人类博士！OpenAI o1程式设计再进化，数学奥林匹亚进前五百

创作者的更多内容

实时新闻

超越人类博士！OpenAI o1程式设计再进化，数学奥林匹亚进前五百

创作者的更多内容

实时新闻

热门文章