Як повідомляє PANews, OpenAI запустив новий тест під назвою MLE-bench, призначений для оцінки продуктивності агентів ШІ при розробці рішень машинного навчання. Цей контрольний тест включає 75 змагань Kaggle, зосереджених на складних завданнях у поточній розробці машинного навчання та порівняння результатів ШІ з продуктивністю людини. Під час початкових тестів модель o1-preview у поєднанні з інфраструктурою AIDE продемонструвала найкращі результати, заробивши бронзову медаль у 16,9% конкурсів, перевершивши Claude 3.5 Sonnet від Anthropic. Завдяки збільшенню кількості спроб показник успіху o1-preview подвоївся до 34,1%. OpenAI вважає, що MLE-стенд допомагає оцінити основні інженерні навички ML, хоча він не охоплює всі сфери досліджень ШІ.