Модели искусственного интеллекта (ИИ) обладают некоторыми способностями задолго до того, как они их демонстрируют во время обучения, показало новое исследование. Согласно исследованию, проведенному Гарвардом и Университетом Мичигана, модели не демонстрируют эти способности, пока не возникнет необходимость в этом тем или иным образом.
Исследование является одним из многих, которые были проведены для понимания того, как модели ИИ развивают свои способности, прежде чем продемонстрировать их.
Исследование проанализировало, как модели ИИ изучают базовые концепции, такие как размер и цвет, выявив, что они осваивают навыки раньше, чем предполагают большинство тестов. Исследование также дало представление о сложности измерения возможностей ИИ. "Модель может казаться некомпетентной при стандартных запросах, в то время как на самом деле она обладает сложными способностями, которые проявляются только при определенных условиях," говорится в статье.
Исследования показывают, что модели ИИ усваивают концепции
Гарвард и Университет Мичигана не первые, кто пытается понять возможности моделей ИИ, исследователи в Anthropic раскрыли статью под названием ‘обучение словарю’. В статье обсуждались связи в их языке Claude с конкретными концепциями, которые он понимает. Хотя большинство этих исследований подходили с разных углов, их цель в основном заключается в понимании моделей ИИ.
Anthropic раскрыла, что нашла особенности, которые можно связать с различными интерпретируемыми концепциями. "Мы нашли миллионы признаков, которые, по-видимому, соответствуют интерпретируемым концепциям, начиная от конкретных объектов, таких как люди, страны и знаменитые здания, до абстрактных идей, таких как эмоции, стили письма и шаги рассуждения," показало исследование.
Во время своего исследования исследователи провели несколько экспериментов, используя модель диффузии, одну из самых популярных архитектур для ИИ. Во время эксперимента они поняли, что модели имели различные способы манипулировать базовыми концепциями. Узор был последовательным, поскольку модели ИИ демонстрировали новые возможности на разных фазах и резкой точке перехода, сигнализирующей о том, когда новая способность приобретается.
Во время обучения модели показали, что они освоили концепции примерно на 2000 шагов раньше, чем это обнаружит стандартный тест. Сильные концепции появились примерно на 6000 шагах, а слабые были видны примерно на 20000 шагах. После корректировки сигналов концепций они обнаружили прямую корреляцию со скоростью обучения.
Исследователи раскрывают методы доступа к скрытым способностям
Исследователи использовали альтернативные методы запроса, чтобы выявить скрытые способности до того, как они были продемонстрированы в стандартных тестах. Разрушительная природа скрытого появления влияет на оценку ИИ и безопасность. Например, традиционные эталоны могут упустить определенные способности моделей ИИ, тем самым упуская как полезные, так и вызывающие беспокойство.
Во время исследования команда обнаружила определенные методы доступа к скрытым способностям моделей ИИ. Исследование назвало методы линейным латентным вмешательством и чрезмерным запросом, поскольку исследователи заставляли модели демонстрировать сложные поведения прежде, чем они проявятся в стандартных тестах. Исследователи также обнаружили, что модели ИИ манипулировали определенными сложными признаками, прежде чем они могли показать их через стандартные запросы.
Например, модели могли быть запрошены на генерацию ‘улыбающихся женщин’ или ‘мужчин в шляпах’ успешно, прежде чем их попросили объединить их. Однако исследование показало, что они научились объединять это раньше, но не смогут продемонстрировать это через обычные запросы. Модели, демонстрирующие способности, можно назвать grokking, ситуацией, когда модели демонстрируют идеальные результаты тестов после длительного обучения. Однако исследователи отметили, что есть ключевые различия между обоими.
Хотя grokking происходит после нескольких сессий обучения и включает в себя уточнение нескольких распределений одних и тех же наборов данных, исследование показывает, что эти способности появляются во время активного обучения. Исследователи отметили, что модели нашли новые способы манипулировать концепциями через изменения в фазах, а не через постепенное улучшение представлений в grokking.
Согласно исследованию, оно показывает, что модели ИИ знают эти концепции, но просто не могут их продемонстрировать. Это похоже на людей, которые смотрят и понимают иностранный фильм, но не могут говорить на этом языке. Это показывает, что у большинства моделей больше возможностей, чем они показывают, и также показывает сложность понимания и контроля их способностей.
От нуля до Web3 Про: Ваш 90-дневный план запуска карьеры