OpenAI führt MLE-Bench ein, um die Leistung von KI-Agenten beim maschinellen Lernen zu bewerten

Binance News · 2024-10-12T09:43:55.000Z

Laut PANews hat OpenAI einen neuen Benchmark namens MLE-Bench eingeführt, der die Leistung von KI-Agenten bei der Entwicklung von Lösungen für maschinelles Lernen bewerten soll. Der Benchmark umfasst 75 Kaggle-Wettbewerbe und konzentriert sich auf die Bewertung herausfordernder Aufgaben in der aktuellen Entwicklung des maschinellen Lernens und den Vergleich von KI-Ergebnissen mit der menschlichen Leistung. In vorläufigen Tests schnitt das o1-preview-Modell in Kombination mit dem AIDE-Framework am besten ab und gewann in 16,9 % der Konkurrenz Bronze und übertraf damit das Claude 3.5 Sonnet von Anthropic. Durch die Erhöhung der Versuchsanzahl verdoppelte sich die Erfolgsquote von o1-preview auf 34,1 %.

Übersetzen

OpenAI 推出 MLE-bench 评估 AI 代理在机器学习中的表现

LIVE

Binance News

--・Verifiziertes offizielles Binance-Konto

据 PANews 报道，OpenAI 推出了名为 MLE-bench 的新基准，旨在评估 AI 代理在机器学习解决方案开发中的表现。该基准涵盖 75 项 Kaggle 竞赛，重点评估当前机器学习开发的挑战性任务，并将 AI 结果与人类表现进行比较。
初步测试中，o1-preview 模型与 AIDE 框架结合表现最佳，在 16.9% 的竞赛中获得铜牌，超过了 Anthropic 的 Claude 3.5 Sonnet。通过增加尝试次数，o1-preview 的成功率翻倍至 34.1%。
OpenAI 认为，MLE-bench 有助于评估核心 ML 工程技能，尽管它并未涵盖所有 AI 研究领域。

Haftungsausschluss: Die hier bereitgestellten Informationen enthalten Meinungen Dritter und/oder gesponserte Inhalte und stellen keine Finanzberatung dar. Siehe AGB.