OpenAI запускает MLE-бенч для оценки производительности ИИ-агентов в машинном обучении

Binance News · 2024-10-12T09:43:55.000Z

По сообщению PANews, OpenAI запустила новый тест под названием MLE-bench, который предназначен для оценки производительности агентов ИИ при разработке решений машинного обучения. Тест охватывает 75 соревнований Kaggle и фокусируется на оценке сложных задач в текущем развитии машинного обучения и сравнении результатов ИИ с производительностью человека. В предварительном тестировании модель o1-preview в сочетании с платформой AIDE показала лучшие результаты, выиграв бронзу в 16,9% соревнований, превзойдя Anthropic Claude 3.5 Sonnet. За счет увеличения количества попыток вероятность успеха o1-preview удвоилась до 34,1%.

查看原文

OpenAI 推出 MLE-bench 評估 AI 代理在機器學習中的表現

LIVE

Binance News

--・通過驗證的幣安官方帳戶

據 PANews 報道，OpenAI 推出了名爲 MLE-bench 的新基準，旨在評估 AI 代理在機器學習解決方案開發中的表現。該基準涵蓋 75 項 Kaggle 競賽，重點評估當前機器學習開發的挑戰性任務，並將 AI 結果與人類表現進行比較。
初步測試中，o1-preview 模型與 AIDE 框架結合表現最佳，在 16.9% 的競賽中獲得銅牌，超過了 Anthropic 的 Claude 3.5 Sonnet。通過增加嘗試次數，o1-preview 的成功率翻倍至 34.1%。
OpenAI 認爲，MLE-bench 有助於評估核心 ML 工程技能，儘管它並未涵蓋所有 AI 研究領域。

免責聲明：包含來自第三方的見解。非財務建議。可能包含贊助內容。請參閱條款。

回覆 0

實時新聞

熱門文章