據PANews報道,OpenAI推出了一項名爲MLE-bench的新基準,旨在評估AI代理在開發機器學習解決方案方面的表現。該基準包括75項Kaggle比賽,重點關注當前機器學習開發中的挑戰性任務,並將AI結果與人類表現進行比較。在初始測試中,與AIDE框架結合的o1-preview模型表現最佳,在16.9%的比賽中獲得銅牌,超越了Anthropic的Claude 3.5 Sonnet。通過增加嘗試次數,o1-preview的成功率翻了一番,達到34.1%。OpenAI認爲,MLE-bench有助於評估核心ML工程技能,儘管它並不涵蓋AI研究的所有領域。