Secondo PANews, OpenAI ha lanciato un nuovo benchmark chiamato MLE-bench, progettato per valutare le prestazioni degli agenti AI nello sviluppo di soluzioni di apprendimento automatico. Questo benchmark include 75 competizioni Kaggle, incentrate su attività impegnative nello sviluppo attuale dell'apprendimento automatico e sul confronto dei risultati AI con le prestazioni umane. Nei test iniziali, il modello o1-preview combinato con il framework AIDE ha ottenuto i risultati migliori, guadagnando una medaglia di bronzo nel 16,9% delle competizioni, superando Claude 3.5 Sonnet di Anthropic. Aumentando il numero di tentativi, il tasso di successo di o1-preview è raddoppiato al 34,1%. OpenAI ritiene che MLE-bench aiuti a valutare le competenze ingegneristiche ML di base, sebbene non copra tutte le aree della ricerca AI.