Según PANews, OpenAI ha lanzado un nuevo benchmark llamado MLE-bench, diseñado para evaluar el rendimiento de los agentes de IA en el desarrollo de soluciones de aprendizaje automático. Este benchmark incluye 75 competiciones de Kaggle, centrándose en tareas desafiantes en el desarrollo actual del aprendizaje automático y comparando los resultados de la IA con el rendimiento humano. En las pruebas iniciales, el modelo o1-preview combinado con el marco AIDE tuvo el mejor rendimiento, obteniendo una medalla de bronce en el 16,9% de las competiciones, superando al Claude 3.5 Sonnet de Anthropic. Al aumentar el número de intentos, la tasa de éxito de o1-preview se duplicó al 34,1%. OpenAI cree que MLE-bench ayuda a evaluar las habilidades básicas de ingeniería de ML, aunque no cubre todas las áreas de investigación de IA.