De acordo com a PANews, a OpenAI lançou um novo benchmark chamado MLE-bench, projetado para avaliar o desempenho de agentes de IA no desenvolvimento de soluções de aprendizado de máquina. Este benchmark inclui 75 competições Kaggle, com foco em tarefas desafiadoras no desenvolvimento atual de aprendizado de máquina e comparando resultados de IA com desempenho humano. Em testes iniciais, o modelo o1-preview combinado com a estrutura AIDE teve o melhor desempenho, ganhando uma medalha de bronze em 16,9% das competições, superando o Claude 3.5 Sonnet da Anthropic. Ao aumentar o número de tentativas, a taxa de sucesso do o1-preview dobrou para 34,1%. A OpenAI acredita que o MLE-bench ajuda a avaliar as principais habilidades de engenharia de ML, embora não cubra todas as áreas de pesquisa de IA.