查看原文

OpenAI 推出 MLE-Bench 来评估机器学习中的 AI 性能

--・币安官方账号

据PANews报道，OpenAI推出了一项名为MLE-bench的新基准，旨在评估AI代理在开发机器学习解决方案方面的表现。该基准包括75项Kaggle比赛，重点关注当前机器学习开发中的挑战性任务，并将AI结果与人类表现进行比较。在初始测试中，与AIDE框架结合的o1-preview模型表现最佳，在16.9%的比赛中获得铜牌，超越了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻了一番，达到34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并不涵盖AI研究的所有领域。

免责声明：含第三方意见，不构成财务建议，并且可能包含赞助内容。详见《条款和条件》。

OpenAI 推出 MLE-Bench 来评估机器学习中的 AI 性能

实时新闻

热门文章