Laut PANews hat OpenAI einen neuen Benchmark namens MLE-bench eingeführt, der die Leistung von KI-Agenten bei der Entwicklung von Lösungen für maschinelles Lernen bewerten soll. Dieser Benchmark umfasst 75 Kaggle-Wettbewerbe, die sich auf anspruchsvolle Aufgaben in der aktuellen Entwicklung des maschinellen Lernens konzentrieren und KI-Ergebnisse mit der menschlichen Leistung vergleichen. In ersten Tests schnitt das o1-preview-Modell in Kombination mit dem AIDE-Framework am besten ab und gewann in 16,9 % der Wettbewerbe eine Bronzemedaille und übertraf damit Anthropics Claude 3.5 Sonnet. Durch die Erhöhung der Anzahl der Versuche verdoppelte sich die Erfolgsquote von o1-preview auf 34,1 %. OpenAI ist der Ansicht, dass MLE-bench dabei hilft, grundlegende ML-Engineering-Fähigkeiten zu bewerten, obwohl es nicht alle Bereiche der KI-Forschung abdeckt.