Исследователи обнаружили доказательства того, что модели искусственного интеллекта скорее солгут, чем признаются в стыде незнания чего-либо. Такое поведение, кажется, становится тем более очевидным, чем больше они растут в размерах и сложности.


Новое исследование, опубликованное в Nature, показало, что чем больше становятся LLM, тем менее надежными они становятся для определенных задач. Это не совсем ложь в том смысле, в каком мы воспринимаем это слово, но они склонны отвечать с уверенностью, даже если ответ фактически неверен, потому что их научили верить в это.


Это явление, которое исследователи окрестили «ультра-крепидарианским» — слово 19 века, которое по сути означает выражение мнения о чем-то, о чем вы ничего не знаете, — описывает LLM, которые выходят далеко за рамки своей базы знаний, чтобы предоставить ответы. «[LLM] терпят пропорционально больше неудач, когда они не знают, но все равно отвечают», — отмечается в исследовании. Другими словами, модели не осознают своего собственного невежества.


Исследование, в котором изучалась производительность нескольких семейств LLM, включая серию GPT от OpenAI, модели LLaMA от Meta и пакет BLOOM от BigScience, подчеркивает несоответствие между растущими возможностями моделей и надежной производительностью в реальных условиях.


Хотя более крупные LLM обычно демонстрируют улучшенную производительность при выполнении сложных задач, это улучшение не обязательно приводит к постоянной точности, особенно при выполнении более простых задач. Этот «дискордант сложности» — феномен, когда LLM не справляются с задачами, которые люди воспринимают как легкие, — подрывает идею надежной рабочей области для этих моделей. Даже при все более сложных методах обучения, включая масштабирование размера модели и объема данных, а также формирование моделей с обратной связью от человека, исследователям еще предстоит найти гарантированный способ устранения этого дискордора.


Результаты исследования противоречат общепринятым взглядам на разработку ИИ. Традиционно считалось, что увеличение размера модели, объема данных и вычислительной мощности приведет к более точным и достоверным результатам. Однако исследование предполагает, что масштабирование может на самом деле усугубить проблемы надежности.


Более крупные модели демонстрируют заметное снижение избегания задач, что означает, что они с меньшей вероятностью будут избегать сложных вопросов. Хотя на первый взгляд это может показаться положительным изменением, оно имеет существенный недостаток: эти модели также более склонны давать неверные ответы. На графике ниже легко увидеть, как модели выдают неверные результаты (красный) вместо того, чтобы избегать задачи (голубой). Правильные ответы отображаются темно-синим цветом.




«Масштабирование и формирование в настоящее время обменивают избегание на большую некорректность», — отметили исследователи, но исправить эту проблему не так просто, как обучить модель быть более осторожной. «Избегание явно намного ниже для сформированных моделей, но некорректность намного выше», — заявили исследователи. Однако модель, обученная избегать выполнения задач, может в конечном итоге стать более ленивой или ослабленной — как отметили пользователи в различных высокорейтинговых LLM, таких как ChatGPT или Claude.


Исследователи обнаружили, что этот феномен не связан с тем, что более крупные LLM не способны преуспеть в простых задачах, а наоборот, их обучают быть более искусными в сложных задачах. Это как человек, который привык есть только изысканные блюда, внезапно столкнувшийся с трудностями при приготовлении домашнего барбекю или традиционного торта. Модели ИИ, обученные на обширных, сложных наборах данных, более склонны упускать фундаментальные навыки.


Проблема усугубляется кажущейся уверенностью моделей. Пользователям часто сложно отличить, когда ИИ предоставляет точную информацию от того, когда он уверенно извергает дезинформацию. Эта чрезмерная уверенность может привести к опасной чрезмерной зависимости от результатов ИИ, особенно в таких критических областях, как здравоохранение или юридические консультации.



Исследователи также отметили, что надежность масштабированных моделей колеблется в разных областях. В то время как производительность может улучшиться в одной области, она может одновременно ухудшиться в другой, создавая эффект «бей крота», который затрудняет установление каких-либо «безопасных» областей работы. «Процент избегающих ответов редко растет быстрее, чем процент неправильных. Читать ясно: ошибки все равно становятся более частыми. Это представляет собой инволюцию надежности», — пишут исследователи.


Исследование подчеркивает ограничения современных методов обучения ИИ. Такие методы, как обучение с подкреплением и обратной связью с человеком (RLHF), призванные формировать поведение ИИ, на самом деле могут усугублять проблему. Эти подходы, по-видимому, снижают тенденцию моделей избегать задач, с которыми они не справляются — помните печально известное «как языковая модель ИИ я не могу?» — непреднамеренно поощряя более частые ошибки.



Инженерия Prompt, искусство создания эффективных запросов для систем ИИ, кажется ключевым навыком для решения этих проблем. Даже такие высокоразвитые модели, как GPT-4, проявляют чувствительность к формулировке вопросов, и небольшие изменения могут привести к кардинально отличающимся результатам.


Это легче заметить при сравнении разных семейств LLM: например, Claude 3.5 Sonnet требует совершенно иного стиля подсказок, чем OpenAI o1, чтобы достичь наилучших результатов. Неправильные подсказки могут в конечном итоге сделать модель более или менее склонной к галлюцинациям.


Человеческий надзор, долгое время считавшийся защитой от ошибок ИИ, может оказаться недостаточным для решения этих проблем. Исследование показало, что пользователи часто испытывают трудности с исправлением неверных выходных данных модели даже в относительно простых областях, поэтому полагаться на человеческое суждение как на отказоустойчивое решение может быть не лучшим решением для надлежащего обучения модели. «Пользователи могут распознавать эти сложные случаи, но все равно часто совершать ошибки неправильного надзора», — заметили исследователи.


Результаты исследования ставят под сомнение текущую траекторию развития ИИ. Хотя стремление к более крупным и более эффективным моделям продолжается, это исследование предполагает, что больше не всегда значит лучше, когда речь идет о надежности ИИ.


И сейчас компании фокусируются на лучшем качестве данных, а не на количестве. Например, последние модели Meta Llama 3.2 достигают лучших результатов, чем предыдущие поколения, обученные на большем количестве параметров. К счастью, это делает их менее человечными, поэтому они могут признать поражение, когда вы спрашиваете их о самой простой вещи в мире, чтобы они выглядели глупо.