PANewsによると、OpenAIは機械学習ソリューションの開発におけるAIエージェントのパフォーマンスを評価するために設計されたMLE-benchという新しいベンチマークを立ち上げました。このベンチマークには75のKaggleコンペティションが含まれており、現在の機械学習開発における困難なタスクに焦点を当て、AIの結果と人間のパフォーマンスを比較しています。初期テストでは、AIDEフレームワークと組み合わせたo1-previewモデルが最高のパフォーマンスを発揮し、コンペティションの16.9%で銅メダルを獲得し、AnthropicのClaude 3.5 Sonnetを上回りました。試行回数を増やすことで、o1-previewの成功率は2倍の34.1%になりました。OpenAIは、MLE-benchがAI研究のすべての領域をカバーしているわけではないものの、コアMLエンジニアリングスキルの評価に役立つと考えています。