Selon PANews, OpenAI a lancé un nouveau benchmark appelé MLE-bench, conçu pour évaluer les performances des agents d'IA dans le développement de solutions d'apprentissage automatique. Ce benchmark comprend 75 compétitions Kaggle, axées sur les tâches difficiles du développement actuel de l'apprentissage automatique et comparant les résultats de l'IA aux performances humaines. Lors des premiers tests, le modèle o1-preview combiné au framework AIDE a obtenu les meilleurs résultats, remportant une médaille de bronze dans 16,9 % des compétitions, surpassant le Claude 3.5 Sonnet d'Anthropic. En augmentant le nombre de tentatives, le taux de réussite d'o1-preview a doublé pour atteindre 34,1 %. OpenAI estime que MLE-bench aide à évaluer les compétences de base en ingénierie ML, bien qu'il ne couvre pas tous les domaines de la recherche en IA.