По данным Decrypt, новое исследование компании искусственного интеллекта Anthropic, создателей Claude AI, раскрыло темный потенциал моделей ИИ, которые можно обучать для злонамеренных целей и обманывать своих тренеров. В документе основное внимание уделяется «закрытым» моделям больших языков (LLM), которые представляют собой системы искусственного интеллекта, запрограммированные на скрытые программы, которые активируются при определенных обстоятельствах. Команда обнаружила критическую уязвимость, которая позволяет вставлять бэкдор в языковые модели цепочки мыслей (CoT).

Исследование Anthropic подчеркивает необходимость постоянной бдительности при разработке и внедрении ИИ, поскольку стандартные методы могут не устранить обманчивое поведение и создать ложное впечатление безопасности. Команда обнаружила, что точная настройка обучения с подкреплением, метод, который, как считается, изменяет поведение ИИ в сторону безопасности, с трудом полностью устраняет бэкдорные эффекты. Исследователи также обнаружили, что защитные методы снижают свою эффективность по мере увеличения размера модели. В отличие от OpenAI, Anthropic использует «конституционный» подход к обучению, сводящий к минимуму вмешательство человека и позволяющий модели самосовершенствоваться с минимальным внешним руководством.