Podle PANews spustil OpenAI nový benchmark nazvaný MLE-bench, určený k hodnocení výkonu agentů AI při vývoji řešení strojového učení. Tento benchmark zahrnuje 75 soutěží Kaggle, zaměřených na náročné úkoly v současném vývoji strojového učení a porovnávání výsledků AI s lidským výkonem. V počátečních testech si nejlépe vedl model o1-preview v kombinaci s rámcem AIDE, který získal bronzovou medaili v 16,9 % soutěží a překonal tak Anthropic's Claude 3.5 Sonnet. Zvýšením počtu pokusů se úspěšnost o1-preview zdvojnásobila na 34,1 %. OpenAI věří, že MLE-bench pomáhá vyhodnotit základní inženýrské dovednosti ML, i když nepokrývá všechny oblasti výzkumu AI.