Menurut PANews, OpenAI telah meluncurkan tolok ukur baru yang disebut MLE-bench, yang dirancang untuk menilai kinerja agen AI dalam mengembangkan solusi pembelajaran mesin. Tolok ukur ini mencakup 75 kompetisi Kaggle, yang berfokus pada tugas-tugas yang menantang dalam pengembangan pembelajaran mesin saat ini dan membandingkan hasil AI dengan kinerja manusia. Dalam pengujian awal, model o1-preview yang dikombinasikan dengan kerangka kerja AIDE memberikan kinerja terbaik, memperoleh medali perunggu dalam 16,9% kompetisi, melampaui Claude 3.5 Sonnet milik Anthropic. Dengan meningkatkan jumlah percobaan, tingkat keberhasilan o1-preview meningkat dua kali lipat menjadi 34,1%. OpenAI percaya bahwa MLE-bench membantu mengevaluasi keterampilan rekayasa ML inti, meskipun tidak mencakup semua bidang penelitian AI.