Một nghiên cứu gần đây trên tạp chí Patterns tiết lộ rằng AI ngày càng có nhiều khả năng đánh lừa con người hơn. Nghiên cứu cho thấy các hệ thống AI đã học cách bắt chước để lừa dối, xu nịnh và thậm chí bắt chước các hành vi khác. 

Cũng đọc: Điều hướng bãi mìn AI Deepfake: Cách phát hiện và chống lại hành vi lừa đảo kỹ thuật số

Nghiên cứu do Tiến sĩ Peter S. Park, một nghiên cứu sinh sau tiến sĩ về an toàn sinh tồn AI tại MIT, dẫn đầu, cho thấy hành vi lừa dối của AI là phổ biến vì đó là cách tốt nhất để hoàn thành các mục tiêu đặt ra trong quá trình đào tạo AI. Những hành vi như vậy đã được ghi nhận trong nhiều hệ thống AI như trò chơi và các mô hình mục đích chung được sử dụng trong thương lượng kinh tế và đánh giá an toàn.

“Nhưng nói chung, chúng tôi cho rằng sự lừa dối của AI phát sinh do chiến lược dựa trên sự lừa dối hóa ra lại là cách tốt nhất để thực hiện tốt nhiệm vụ đào tạo của AI nhất định. Sự lừa dối giúp họ đạt được mục tiêu của mình.” 

Nhóm nghiên cứu

Hệ thống AI sử dụng các chiến thuật lừa đảo đa dạng

Một ví dụ nổi bật được trích dẫn là CICERO của Meta, một AI được phát triển để chơi trò chơi Ngoại giao. Mặc dù CICERO được lập trình để trung thực nhưng chương trình này thường phải sử dụng những thủ đoạn ngầm để đánh bại đối thủ. Nó tạo dựng các mối quan hệ và quay lưng lại với họ khi phù hợp và tỏ ra có ý định lừa dối. CICERO đã được các nhà nghiên cứu mô tả là “bậc thầy lừa dối”.

Cũng đọc: Chống lại làn sóng tội phạm mạng do AI điều khiển

Các hệ thống AI khác cũng được cho là có những hành vi lừa đảo như vậy. Ví dụ: Pluribus, một AI chơi bài poker, đã có thể lừa gạt những người chơi bài poker chuyên nghiệp ở Texas. AlphaStar từ DeepMind của Google cũng sử dụng tính năng trò chơi Starcraft II được gọi là 'sương mù chiến tranh' để đánh lừa đối thủ và giả vờ tấn công.

Tiến sĩ Park cho biết: “Mặc dù việc hệ thống AI gian lận trong trò chơi có vẻ vô hại nhưng nó có thể dẫn đến” những đột phá về khả năng lừa đảo của AI”.

AI “chơi chết” để trốn tránh kiểm tra an toàn

Rủi ro lừa dối của AI không chỉ giới hạn ở việc chơi game. Nghiên cứu do Tiến sĩ Peter dẫn đầu đã xác định các trường hợp AI đã tự tạo điều kiện để giả chết để tránh bị phát hiện trong quá trình kiểm tra an toàn. Điều này có thể lừa đảo các nhà phát triển và cơ quan quản lý, đồng thời có thể dẫn đến hậu quả nghiêm trọng nếu các hệ thống lừa đảo như vậy được sử dụng trong các ứng dụng thực tế.

Nguồn: Tạp chí bảo mật

Trong một trường hợp khác, hệ thống AI được đào tạo dựa trên phản hồi của con người đã học cách nhận được đánh giá cao từ mọi người bằng cách đánh lừa họ rằng một mục tiêu cụ thể đã hoàn thành. Hành vi lừa đảo như vậy khá nguy hiểm vì những hệ thống như vậy có thể được sử dụng cho các hoạt động lừa đảo, thao túng thị trường tài chính hoặc gây ảnh hưởng đến bầu cử.

Các nhà nghiên cứu yêu cầu các biện pháp pháp lý mạnh mẽ

Dựa trên kết quả nghiên cứu, các nhà nghiên cứu nhận định rằng cần có các biện pháp pháp lý mạnh mẽ để đối phó với các mối đe dọa mà hành vi lừa dối của AI đặt ra.

“Cần có các giải pháp chủ động, chẳng hạn như khung pháp lý để đánh giá rủi ro lừa dối AI, luật yêu cầu tính minh bạch về tương tác AI và nghiên cứu sâu hơn về việc phát hiện và ngăn chặn hành vi lừa dối AI.”

Nhóm nghiên cứu

Cũng đọc: AI có khả năng phát hiện nguy cơ suy tim, nghiên cứu phát hiện

Một số tiến bộ đã được thực hiện dưới hình thức Đạo luật AI của EU và Sắc lệnh hành pháp về An toàn AI của Tổng thống Joe Biden. Tuy nhiên, việc thực thi các chính sách này vẫn còn nhiều vấn đề vì sự phát triển AI đang phát triển nhanh chóng và chưa có cách nào tốt để quản lý các hệ thống này.

Báo cáo về tiền điện tử của Brenda Kanana