Theo Cointelegraph, các nhà nghiên cứu từ Penn Engineering đã hack thành công các robot chạy bằng trí tuệ nhân tạo, điều khiển chúng thực hiện các hành động thường bị chặn bởi các giao thức an toàn và đạo đức, chẳng hạn như gây va chạm hoặc kích nổ bom. Các phát hiện đã được công bố trong một bài báo vào ngày 17 tháng 10, nêu chi tiết cách thuật toán của họ, RoboPAIR, đạt được tỷ lệ bẻ khóa 100% bằng cách bỏ qua các giao thức an toàn trên ba hệ thống robot AI khác nhau trong vòng vài ngày.

Trong những trường hợp bình thường, robot điều khiển theo mô hình ngôn ngữ lớn (LLM) từ chối tuân thủ các lời nhắc yêu cầu hành động có hại, chẳng hạn như đập kệ vào người. Tuy nhiên, các nhà nghiên cứu đã chứng minh rằng việc bẻ khóa robot do AI điều khiển để thực hiện các hành động có hại trong thế giới thực không chỉ khả thi mà còn dễ dàng đến mức đáng báo động. Nghiên cứu cho thấy rằng rủi ro của LLM đã bẻ khóa vượt xa việc tạo văn bản, vì khả năng rõ ràng là robot đã bẻ khóa có thể gây ra thiệt hại về mặt vật lý.

Sử dụng RoboPAIR, các nhà nghiên cứu đã có thể gợi ra các hành động có hại với tỷ lệ thành công 100% ở các robot thử nghiệm. Các hành động này bao gồm từ kích nổ bom đến chặn lối thoát hiểm và gây ra va chạm cố ý. Các robot được thử nghiệm bao gồm Robotics Jackal của Clearpath, một phương tiện có bánh xe; Dolphin LLM của NVIDIA, một trình mô phỏng tự lái; và Go2 của Unitree, một robot bốn chân. LLM tự lái Dolphin đã được điều khiển để va chạm với xe buýt, rào chắn và người đi bộ, bỏ qua đèn giao thông và biển báo dừng. Robotic Jackal được tạo ra để tìm nơi có hại nhất để kích nổ bom, chặn lối thoát hiểm, hất đổ các kệ hàng trong kho vào người và va chạm với những người trong phòng. Go2 của Unitree đã thực hiện các hành động tương tự, chẳng hạn như chặn lối thoát và ném bom.

Các nhà nghiên cứu cũng phát hiện ra rằng cả ba robot đều dễ bị thao túng theo các hình thức khác, chẳng hạn như yêu cầu robot thực hiện một hành động mà nó đã từ chối nhưng với ít chi tiết tình huống hơn. Ví dụ, yêu cầu một robot có bom đi về phía trước rồi ngồi xuống, thay vì yêu cầu rõ ràng là ném bom, cũng cho kết quả tương tự.

Trước khi công bố rộng rãi, các nhà nghiên cứu đã chia sẻ những phát hiện của họ, bao gồm bản thảo của bài báo, với các công ty AI hàng đầu và các nhà sản xuất robot được sử dụng trong nghiên cứu. Alexander Robey, một trong những tác giả, nhấn mạnh rằng việc giải quyết các lỗ hổng này đòi hỏi nhiều hơn là các bản vá phần mềm đơn giản, kêu gọi đánh giá lại việc tích hợp AI trong các hệ thống và robot vật lý. Ông nhấn mạnh tầm quan trọng của việc xác định điểm yếu để làm cho hệ thống an toàn hơn, một hoạt động được gọi là AI red teaming, bao gồm việc kiểm tra các hệ thống AI để tìm ra các mối đe dọa và lỗ hổng tiềm ẩn nhằm bảo vệ các hệ thống AI tạo ra.