Theo Cointelegraph, một nhóm các nhà khoa học từ Đại học Bắc Carolina, Đồi Chapel, gần đây đã công bố nghiên cứu về trí tuệ nhân tạo (AI) in sẵn, nêu bật khó khăn trong việc xóa dữ liệu nhạy cảm khỏi các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI và Bard của Google. . Các nhà nghiên cứu nhận thấy rằng mặc dù có thể xóa thông tin khỏi LLM nhưng việc xác minh rằng thông tin đã bị xóa cũng khó khăn như chính quá trình xóa.
Khó khăn này xuất phát từ cách LLM được thiết kế và đào tạo. Họ được đào tạo trước trên cơ sở dữ liệu và sau đó được tinh chỉnh để tạo ra kết quả đầu ra mạch lạc. Sau khi đào tạo một mô hình, người tạo mô hình không thể quay lại cơ sở dữ liệu và xóa các tệp cụ thể để ngăn mô hình đưa ra các kết quả liên quan. Đây chính là “hộp đen” của AI. Sự cố xảy ra khi LLM được đào tạo trên bộ dữ liệu lớn đưa ra thông tin nhạy cảm, chẳng hạn như thông tin nhận dạng cá nhân hoặc hồ sơ tài chính.
Để giải quyết vấn đề này, các nhà phát triển AI sử dụng các biện pháp bảo vệ, chẳng hạn như lời nhắc được mã hóa cứng nhằm ngăn chặn các hành vi cụ thể hoặc tăng cường học tập từ phản hồi của con người (RLHF). Tuy nhiên, các nhà nghiên cứu của UNC lập luận rằng phương pháp này dựa vào việc con người tìm ra tất cả các sai sót mà một mô hình có thể bộc lộ và ngay cả khi thành công, nó vẫn không 'xóa' thông tin khỏi mô hình. Các nhà nghiên cứu kết luận rằng ngay cả các phương pháp chỉnh sửa mô hình hiện đại, chẳng hạn như Chỉnh sửa mô hình xếp hạng một (ROME), cũng không thể xóa hoàn toàn thông tin thực tế khỏi LLM, vì các sự kiện vẫn có thể được trích xuất 38% bằng các cuộc tấn công hộp trắng. và 29% là do tấn công hộp đen.
Các nhà nghiên cứu đã có thể phát triển các phương pháp phòng thủ mới để bảo vệ LLM khỏi một số 'cuộc tấn công khai thác' - những nỗ lực có mục đích của những kẻ xấu nhằm sử dụng lời nhắc để vượt qua các rào chắn của mô hình nhằm khiến nó đưa ra thông tin nhạy cảm. Tuy nhiên, họ lưu ý rằng vấn đề xóa thông tin nhạy cảm có thể là vấn đề mà các phương pháp phòng thủ luôn phải bắt kịp các phương thức tấn công mới.