Según PANews, OpenAI ha lanzado un nuevo punto de referencia llamado MLE-bench, que está diseñado para evaluar el desempeño de los agentes de IA en el desarrollo de soluciones de aprendizaje automático. El punto de referencia cubre 75 competiciones de Kaggle y se centra en evaluar tareas desafiantes en el desarrollo actual del aprendizaje automático y comparar los resultados de la IA con el desempeño humano.

En las pruebas preliminares, el modelo o1-preview combinado con el marco AIDE obtuvo el mejor rendimiento, ganando el bronce en el 16,9% de la competencia, superando al Claude 3.5 Sonnet de Anthropic. Al aumentar el número de intentos, la tasa de éxito de o1-preview se duplicó hasta el 34,1%.

OpenAI cree que MLE-bench es útil para evaluar las habilidades básicas de ingeniería de ML, aunque no cubre todas las áreas de investigación de IA.