競技成就:AI 表現的新標準
OpenAI 表示,OpenAI o1 展現了在競技程式設計、數學和科學領域的非凡能力。該模型在 Codeforces 這個知名競技程式設計平台的表現達到第 89 個百分位,並位居美國數學奧林匹亞競賽 (AIME) 的前 500 名。此外,在測試物理、生物和化學專業知識的 GPQA 基準測試中,o1 的準確度超越了人類博士水準。
OpenAI o1 已開放使用
儘管 OpenAI 正在努力使 o1 與現有模型一樣易於使用,早期版本 OpenAI o1-preview 已經在 ChatGPT 和受信任的 API 用戶中可用。這一早期接入旨在展示 o1 強大的推理能力及其重新定義 AI 應用的潛力。
數據高效的 AI 推理方法:關聯思考
該公司表示,OpenAI o1 的成功源於其大規模強化學習算法,該算法使用「關聯思考」(chain of thought) 方法來教導模型進行有效推理。這種訓練方法具有高度的數據效率,使得模型能夠隨著強化學習的增強,和測試場景中思考時間的增加而穩定進步。與傳統的大型語言模型預訓練不同,這種方法具有獨特的擴展限制,OpenAI 正積極探索其中的奧秘。
推理密集型基準測試超越 GPT-4o
為強調 o1 相較於其前身 GPT-4o 的推理改進,OpenAI 將該模型測試於各類人類考試和機器學習基準測試中。結果顯示,o1 在大多數推理密集型任務中大幅超越 GPT-4o。在 2024 年 AIME 考試中,GPT-4o 僅解決了 12% 的問題,而 o1 在每個問題單一樣本情況下平均解決 74%,在 64 個樣本共識下達到 83%,在 1,000 個樣本使用評分函數重新排序後達到 93%。這一表現使 o1 排名全國前 500 名,超越進入美國數學奧林匹亞的門檻。
在科學基準測試中超越人類專家
OpenAI o1 在 GPQA diamond 基準測試中同樣表現出色,該測試針對化學、物理和生物領域的專業知識。OpenAI 邀請博士專家回答這些問題,結果顯示 o1 超越了人類專家,成為首個在該基準測試中達到此成就的模型。雖然這並不意味 o1 在所有方面都優於博士學位,但它突顯了該模型在特定領域的卓越問題解決能力。
在其他機器學習基準測試中,o1 繼續超越現有的最先進模型。啟用視覺感知功能後,o1 在 MMMU 中得分 78.2%,表現與人類專家相當,並在 57 個 MMLU 子類別中的 54 個超越 GPT-4o。
類似人類的思考方式:關聯思考
OpenAI o1 採用類似人類在回答複雜問題前的「關聯思考」方法。這種方法可以讓模型透過強化學習不斷優化策略,將困難的步驟分解為更簡單的任務,並在必要時探索替代方法。這一學習過程顯著提升了模型的推理能力,使其能更好地處理挑戰性問題。
程式設計表現可與人類工程師競爭
OpenAI 針對程式設計訓練了一個版本的 o1,並在競技程式設計中取得了顯著成果。該模型在 2024 年國際資訊奧林匹亞 (IOI) 中獲得 213 分,排名第 49 個百分位,展示了其在類似人類競賽條件下的程式設計技能。在放寬提交限制後,模型表現大幅提升,單題提交 10,000 次後得分超過金牌門檻。
在 Codeforces 主辦的模擬競技程式設計比賽中,o1 的 Elo 評分達到 1807,超越 93% 的人類競爭者,並遠遠超過 GPT-4o 的表現。
人類偏好評估:o1 vs. GPT-4o
OpenAI 也對 o1-preview 與 GPT-4o 於各類開放式提示下的回應進行了人類偏好評估。在數據分析、程式設計和數學等推理密集型領域,人類訓練師顯著偏好 o1-preview。然而,o1-preview 在某些自然語言任務中不被偏愛,顯示其不一定適用於所有使用場景。
OpenAI 此次強調安全性
o1 的「關聯思考」方法不僅提升了推理能力,還為安全性提供了新機會。OpenAI 已將安全政策整合進模型的推理過程,使其更能遵循人類的價值觀和原則。此方法使模型在關鍵安全基準上表現有所提升,展現了其在處理複雜倫理情境時的增強穩健性。
為保護競爭優勢並確保模型保持初衷,OpenAI 決定不對用戶顯示 o1 的原始關聯思考。取而代之的是,該模型會生成思維過程的摘要,這些摘要將指導最終答案,目的是在不妥協安全性的情況下保持透明度。
OpenAI o1 在 AI 推理領域邁出了重要的一步,在競技程式設計、數學和科學領域展現了卓越表現。隨著 OpenAI 持續改進該模型,未來版本有望進一步對齊人類價值觀,並在編程、科學等複雜推理密集型任務中開創新的應用前景。
【免責聲明】市場有風險,投資需謹慎。本文不構成投資建議,使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
本文經授權轉載自:《鏈新聞》