Researchers Hack AI Robots To Perform Harmful Actions

Binance News · 2024-10-18T06:05:31.000Z

According to Cointelegraph, researchers from Penn Engineering have successfully hacked artificial intelligence-powered robots, manipulating them into performing actions typically blocked by safety and ethical protocols, such as causing collisions or detonating bombs. The findings were published in a paper on October 17, detailing how their algorithm, RoboPAIR, achieved a 100% jailbreak rate by bypassing safety protocols on three different AI robotic systems within a few days. Under normal circumstances, large language model (LLM) controlled robots refuse to comply with prompts requesting harmful actions, such as knocking shelves onto people. However, the researchers demonstrated that jailbreaking AI-controlled robots to perform harmful actions in the real world is not only possible but alarmingly easy. The study revealed that the risks of jailbroken LLMs extend far beyond text generation, given the distinct possibility that jailbroken robots could cause physical damage. Using RoboPAIR, the researchers were able to elicit harmful actions with a 100% success rate in test robots. These actions ranged from bomb detonation to blocking emergency exits and causing deliberate collisions. The robots tested included Clearpath’s Robotics Jackal, a wheeled vehicle; NVIDIA’s Dolphin LLM, a self-driving simulator; and Unitree’s Go2, a four-legged robot. The Dolphin self-driving LLM was manipulated to collide with a bus, a barrier, and pedestrians, ignoring traffic lights and stop signs. The Robotic Jackal was made to find the most harmful place to detonate a bomb, block an emergency exit, knock over warehouse shelves onto a person, and collide with people in the room. Unitree’s Go2 performed similar actions, such as blocking exits and delivering a bomb. The researchers also found that all three robots were vulnerable to other forms of manipulation, such as asking the robot to perform an action it had already refused but with fewer situational details. For example, asking a robot with a bomb to walk forward and then sit down, rather than explicitly asking it to deliver a bomb, yielded the same result. Before the public release, the researchers shared their findings, including a draft of the paper, with leading AI companies and the manufacturers of the robots used in the study. Alexander Robey, one of the authors, emphasized that addressing these vulnerabilities requires more than simple software patches, calling for a reevaluation of AI integration in physical robots and systems. He highlighted the importance of identifying weaknesses to make systems safer, a practice known as AI red teaming, which involves testing AI systems for potential threats and vulnerabilities to safeguard generative AI systems.

Theo Cointelegraph, các nhà nghiên cứu từ Penn Engineering đã hack thành công các robot chạy bằng trí tuệ nhân tạo, điều khiển chúng thực hiện các hành động thường bị chặn bởi các giao thức an toàn và đạo đức, chẳng hạn như gây va chạm hoặc kích nổ bom. Các phát hiện đã được công bố trong một bài báo vào ngày 17 tháng 10, nêu chi tiết cách thuật toán của họ, RoboPAIR, đạt được tỷ lệ bẻ khóa 100% bằng cách bỏ qua các giao thức an toàn trên ba hệ thống robot AI khác nhau trong vòng vài ngày.
Trong những trường hợp bình thường, robot điều khiển theo mô hình ngôn ngữ lớn (LLM) từ chối tuân thủ các lời nhắc yêu cầu hành động có hại, chẳng hạn như đập kệ vào người. Tuy nhiên, các nhà nghiên cứu đã chứng minh rằng việc bẻ khóa robot do AI điều khiển để thực hiện các hành động có hại trong thế giới thực không chỉ khả thi mà còn dễ dàng đến mức đáng báo động. Nghiên cứu cho thấy rằng rủi ro của LLM đã bẻ khóa vượt xa việc tạo văn bản, vì khả năng rõ ràng là robot đã bẻ khóa có thể gây ra thiệt hại về mặt vật lý.
Sử dụng RoboPAIR, các nhà nghiên cứu đã có thể gợi ra các hành động có hại với tỷ lệ thành công 100% ở các robot thử nghiệm. Các hành động này bao gồm từ kích nổ bom đến chặn lối thoát hiểm và gây ra va chạm cố ý. Các robot được thử nghiệm bao gồm Robotics Jackal của Clearpath, một phương tiện có bánh xe; Dolphin LLM của NVIDIA, một trình mô phỏng tự lái; và Go2 của Unitree, một robot bốn chân. LLM tự lái Dolphin đã được điều khiển để va chạm với xe buýt, rào chắn và người đi bộ, bỏ qua đèn giao thông và biển báo dừng. Robotic Jackal được tạo ra để tìm nơi có hại nhất để kích nổ bom, chặn lối thoát hiểm, hất đổ các kệ hàng trong kho vào người và va chạm với những người trong phòng. Go2 của Unitree đã thực hiện các hành động tương tự, chẳng hạn như chặn lối thoát và ném bom.
Các nhà nghiên cứu cũng phát hiện ra rằng cả ba robot đều dễ bị thao túng theo các hình thức khác, chẳng hạn như yêu cầu robot thực hiện một hành động mà nó đã từ chối nhưng với ít chi tiết tình huống hơn. Ví dụ, yêu cầu một robot có bom đi về phía trước rồi ngồi xuống, thay vì yêu cầu rõ ràng là ném bom, cũng cho kết quả tương tự.
Trước khi công bố rộng rãi, các nhà nghiên cứu đã chia sẻ những phát hiện của họ, bao gồm bản thảo của bài báo, với các công ty AI hàng đầu và các nhà sản xuất robot được sử dụng trong nghiên cứu. Alexander Robey, một trong những tác giả, nhấn mạnh rằng việc giải quyết các lỗ hổng này đòi hỏi nhiều hơn là các bản vá phần mềm đơn giản, kêu gọi đánh giá lại việc tích hợp AI trong các hệ thống và robot vật lý. Ông nhấn mạnh tầm quan trọng của việc xác định điểm yếu để làm cho hệ thống an toàn hơn, một hoạt động được gọi là AI red teaming, bao gồm việc kiểm tra các hệ thống AI để tìm ra các mối đe dọa và lỗ hổng tiềm ẩn nhằm bảo vệ các hệ thống AI tạo ra.

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Bài viết thịnh hành