據 PANews 報道,OpenAI 推出了名爲 MLE-bench 的新基準,旨在評估 AI 代理在機器學習解決方案開發中的表現。該基準涵蓋 75 項 Kaggle 競賽,重點評估當前機器學習開發的挑戰性任務,並將 AI 結果與人類表現進行比較。

初步測試中,o1-preview 模型與 AIDE 框架結合表現最佳,在 16.9% 的競賽中獲得銅牌,超過了 Anthropic 的 Claude 3.5 Sonnet。通過增加嘗試次數,o1-preview 的成功率翻倍至 34.1%。

OpenAI 認爲,MLE-bench 有助於評估核心 ML 工程技能,儘管它並未涵蓋所有 AI 研究領域。