据 PANews 报道,OpenAI 推出了名为 MLE-bench 的新基准,旨在评估 AI 代理在机器学习解决方案开发中的表现。该基准涵盖 75 项 Kaggle 竞赛,重点评估当前机器学习开发的挑战性任务,并将 AI 结果与人类表现进行比较。

初步测试中,o1-preview 模型与 AIDE 框架结合表现最佳,在 16.9% 的竞赛中获得铜牌,超过了 Anthropic 的 Claude 3.5 Sonnet。通过增加尝试次数,o1-preview 的成功率翻倍至 34.1%。

OpenAI 认为,MLE-bench 有助于评估核心 ML 工程技能,尽管它并未涵盖所有 AI 研究领域。