По данным Cointelegraph, исследователи из Penn Engineering успешно взломали роботов на базе искусственного интеллекта, заставив их выполнять действия, которые обычно блокируются протоколами безопасности и этики, например, вызывать столкновения или взрывать бомбы. Результаты были опубликованы в статье 17 октября, в которой подробно описывается, как их алгоритм RoboPAIR достиг 100%-ного уровня взлома, обойдя протоколы безопасности на трех различных роботизированных системах ИИ в течение нескольких дней.

При нормальных обстоятельствах роботы, управляемые большой языковой моделью (LLM), отказываются выполнять подсказки, требующие вредоносных действий, таких как сбрасывание полок на людей. Однако исследователи продемонстрировали, что джейлбрейк роботов, управляемых ИИ, для выполнения вредоносных действий в реальном мире не только возможен, но и пугающе прост. Исследование показало, что риски взломанных LLM выходят далеко за рамки генерации текста, учитывая явную возможность того, что взломанные роботы могут нанести физический ущерб.

Используя RoboPAIR, исследователи смогли вызвать вредоносные действия со 100%-ным успехом у тестовых роботов. Эти действия варьировались от подрыва бомбы до блокирования аварийных выходов и создания преднамеренных столкновений. Испытываемые роботы включали колесное транспортное средство Robotics Jackal от Clearpath; самоуправляемый симулятор Dolphin LLM от NVIDIA; и четвероногий робот Go2 от Unitree. Самоуправляемый LLM Dolphin был манипулирован так, чтобы сталкиваться с автобусом, барьером и пешеходами, игнорируя светофоры и знаки остановки. Robotic Jackal был создан, чтобы найти самое опасное место для подрыва бомбы, блокирования аварийного выхода, опрокидывания складских полок на человека и столкновения с людьми в помещении. Go2 от Unitree выполнял похожие действия, такие как блокирование выходов и доставка бомбы.

Исследователи также обнаружили, что все три робота были уязвимы для других форм манипуляции, таких как просьба к роботу выполнить действие, от которого он уже отказался, но с меньшим количеством ситуативных деталей. Например, просьба к роботу с бомбой пройти вперед, а затем сесть, вместо того, чтобы явно попросить его доставить бомбу, дала тот же результат.

Перед публикацией исследователи поделились своими выводами, включая черновик статьи, с ведущими компаниями ИИ и производителями роботов, использованных в исследовании. Александр Роби, один из авторов, подчеркнул, что для устранения этих уязвимостей требуется нечто большее, чем просто исправления программного обеспечения, и призвал к переоценке интеграции ИИ в физических роботов и системы. Он подчеркнул важность выявления слабых мест для повышения безопасности систем, практику, известную как AI red teaming, которая включает тестирование систем ИИ на наличие потенциальных угроз и уязвимостей для защиты генеративных систем ИИ.