OpenAI spouští nový benchmark nazvaný MLE-bench pro hodnocení schopnosti agentů AI vyvíjet řešení pro strojové učení

PANews · 2024-10-12T09:43:05.000Z

PANews 12. října informovalo, že podle The Decoder OpenAI spustilo nový benchmark nazvaný MLE-bench, který je určen k hodnocení výkonu agentů AI při vývoji řešení strojového učení. Benchmark pokrývá 75 soutěží Kaggle a zaměřuje se na vyhodnocování náročných úkolů, které jsou v současnosti vyvíjeny v oblasti strojového učení a porovnávání výsledků umělé inteligence s lidským výkonem. V předběžných testech si nejlépe vedl model o1-preview v kombinaci s frameworkem AIDE, který získal bronzové medaile v 16,9 % soutěže, čímž předčil Claude 3.5 Sonnet od Anthropic. Zvýšením počtu pokusů se úspěšnost o1-preview zdvojnásobila na 34,1 %. OpenAI věří, že MLE-bench je užitečný pro hodnocení klíčových inženýrských dovedností ML, i když nepokrývá všechny oblasti výzkumu AI.

Přeložit

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

LIVE

PANews

PANews 10月12日消息，据The Decoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

Vyloučení odpovědnosti: Obsahuje názory třetích stran. Nejedná se o finanční poradenství. Může obsahovat sponzorovaný obsah. Viz obchodní podmínky.

Odpovědi 0

Prozkoumat více od tvůrce

Nejnovější zprávy