Według PANews, OpenAI uruchomiło nowy benchmark o nazwie MLE-bench, zaprojektowany do oceny wydajności agentów AI w rozwijaniu rozwiązań uczenia maszynowego. Ten benchmark obejmuje 75 konkursów Kaggle, skupiając się na trudnych zadaniach w obecnym rozwoju uczenia maszynowego i porównując wyniki AI z wydajnością człowieka. We wstępnych testach model o1-preview w połączeniu z frameworkiem AIDE wypadł najlepiej, zdobywając brązowy medal w 16,9% konkursów, przewyższając Claude 3.5 Sonnet firmy Anthropic. Poprzez zwiększenie liczby prób wskaźnik sukcesu o1-preview podwoił się do 34,1%. OpenAI uważa, że ​​MLE-bench pomaga ocenić podstawowe umiejętności inżynierii ML, chociaż nie obejmuje wszystkich obszarów badań nad AI.