Theo PANews, OpenAI đã ra mắt một chuẩn mực mới có tên là MLE-bench, được thiết kế để đánh giá hiệu suất của các tác nhân AI trong việc phát triển các giải pháp học máy. Chuẩn mực này bao gồm 75 cuộc thi Kaggle, tập trung vào các nhiệm vụ đầy thách thức trong quá trình phát triển học máy hiện tại và so sánh kết quả AI với hiệu suất của con người. Trong các thử nghiệm ban đầu, mô hình o1-preview kết hợp với khuôn khổ AIDE đã hoạt động tốt nhất, giành huy chương đồng trong 16,9% các cuộc thi, vượt qua Claude 3.5 Sonnet của Anthropic. Bằng cách tăng số lần thử, tỷ lệ thành công của o1-preview đã tăng gấp đôi lên 34,1%. OpenAI tin rằng MLE-bench giúp đánh giá các kỹ năng kỹ thuật ML cốt lõi, mặc dù nó không bao gồm tất cả các lĩnh vực nghiên cứu AI.