Potrivit PANews, OpenAI a lansat un nou benchmark numit MLE-bench, conceput pentru a evalua performanța agenților AI în dezvoltarea soluțiilor de învățare automată. Acest punct de referință include 75 de competiții Kaggle, concentrându-se pe sarcini provocatoare din dezvoltarea actuală a învățării automate și comparând rezultatele AI cu performanța umană. În testele inițiale, modelul o1-preview combinat cu framework-ul AIDE a avut cel mai bun rezultat, câștigând o medalie de bronz în 16,9% dintre competiții, depășind Claude 3.5 Sonnet de la Anthropic. Prin creșterea numărului de încercări, rata de succes a o1-preview sa dublat la 34,1%. OpenAI consideră că MLE-bench ajută la evaluarea abilităților de bază de inginerie ML, deși nu acoperă toate domeniile de cercetare AI.