据PANews报道,OpenAI推出了一项名为MLE-bench的新基准,旨在评估AI代理在开发机器学习解决方案方面的表现。该基准包括75项Kaggle比赛,重点关注当前机器学习开发中的挑战性任务,并将AI结果与人类表现进行比较。在初始测试中,与AIDE框架结合的o1-preview模型表现最佳,在16.9%的比赛中获得铜牌,超越了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数,o1-preview的成功率翻了一番,达到34.1%。OpenAI认为,MLE-bench有助于评估核心ML工程技能,尽管它并不涵盖AI研究的所有领域。