Một nghiên cứu mới của Viện Công nghệ Massachusetts (MIT) chỉ ra khả năng lừa dối của AI ngày một chân thật và có nguy cơ trở thành mối nguy tiềm tàng.

Bài viết được đăng trên tạp chí Patterns vào ngày 10/5, do một nhóm nghiên cứu dẫn đầu bởi tiến sĩ Peter S. Park, nhà nghiên cứu về sự tồn tại và an toàn của AI tại MIT.

Park và các đồng nghiệp đã phân tích tài liệu tập trung vào các cách mà hệ thống AI truyền bá thông tin sai lệch sau đó lừa dối người khác, tập trung vào hai loại hệ thống AI gồm Cicero của Meta – được thiết kế để hoàn thành một nhiệm vụ cụ thể và GPT-4 của OpenAI – được đào tạo để thực hiện nhiều nhiệm vụ khác nhau.

“Các hệ thống AI này được đào tạo để trở nên trung thực, nhưng chúng thường học được những mánh khóe lừa đảo thông qua quá trình đào tạo”, ông Park nói. “Sự lừa dối của AI phát sinh bởi đó là cách tốt nhất để chúng hoàn thành nhiệm vụ. Nói cách khác, nó giúp chúng đạt được mục tiêu của mình”.

Theo kết quả nghiên cứu, các hệ thống AI được đào tạo để “chiến thắng các trò chơi có yếu tố xã hội” đặc biệt có khả năng lừa dối. Chẳng hạn, nhóm đã thử dùng Cicero chơi Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ.

Meta từng giới thiệu đã tạo Cicero theo hướng trung thực và hữu ích nhất. Tuy nhiên, kết quả nghiên cứu cho thấy AI này thường “đưa ra những cam kết mà nó không bao giờ có ý định thực hiện, phản bội các đồng minh và nói dối trắng trợn”.

Ngay cả các hệ thống AI đa năng như GPT-4 cũng có thể lừa dối con người. Theo đó, GPT-4 đã thao túng một nhân viên TaskRabbit giúp mình vượt qua mã Captcha bằng cách giả vờ bị suy giảm thị lực. Nhân viên này ban đầu nghi ngờ, nhưng sau đó đã giúp AI của OpenAI “vượt rào”.

Khả năng lừa dối của AI xuất phát từ một số yếu tố. Một yếu tố là do bản chất “hộp đen” của các mô hình học máy tiên tiến. Con người hiện tại chưa thể biết chính xác cách thức hoặc lý do tại sao các mô hình này tạo ra kết quả mà chúng làm, và liệu chúng có luôn thể hiện hành vi đó trong tương lai hay không.

Một yếu tố khác là do cách thức mà AI được huấn luyện. Các mô hình AI được huấn luyện dựa trên một lượng lớn dữ liệu, và đôi khi dữ liệu này có thể chứa những sai sót hoặc định kiến. Điều này có thể dẫn đến việc AI học những hành vi sai trái hoặc không mong muốn.

Khả năng lừa dối của AI tiềm ẩn nhiều nguy cơ cho con người. Ví dụ, AI có thể được sử dụng để lan truyền thông tin sai lệch, thao túng thị trường tài chính hoặc thậm chí gây ra chiến tranh. Nhất là trong thời kỳ những cuộc bầu cử sắp tới chuẩn bị diễn ra. Do đó, việc kiểm soát AI là một thách thức lớn, nhưng đây là một vấn đề cần được giải quyết một cách nghiêm túc để đảm bảo rằng AI được sử dụng cho mục đích tốt và không gây hại cho con người.