По данным PANews, OpenAI запустила новый бенчмарк под названием MLE-bench, предназначенный для оценки производительности агентов ИИ при разработке решений машинного обучения. Этот бенчмарк включает 75 соревнований Kaggle, фокусируясь на сложных задачах в текущей разработке машинного обучения и сравнивая результаты ИИ с производительностью человека. В первоначальных тестах модель o1-preview в сочетании с фреймворком AIDE показала наилучшие результаты, заработав бронзовую медаль в 16,9% соревнований, превзойдя Claude 3.5 Sonnet от Anthropic. За счет увеличения количества попыток показатель успешности o1-preview удвоился до 34,1%. OpenAI считает, что MLE-bench помогает оценить основные навыки инженерии МО, хотя он не охватывает все области исследований ИИ.