Anthropic cùng nhiều ông lớn công nghệ khác đang thành lập “đội đỏ” (Red teaming) nhằm vá lỗi bảo mật, ngăn chặn nguy cơ mô hình bị lợi dụng cho mục đích xấu.

Trong tuần, Anthropic đã phát hành hướng dẫn về “đội đỏ”, gia nhập nhóm các nhà cung cấp như Google, Microsoft, NIST, NVIDIA và OpenAI, những đơn vị cũng đã phát hành các khung tương tự. Mục tiêu của các khung này là xác định và khắc phục các lỗ hổng an ninh đang ngày càng gia tăng trong các mô hình trí tuệ nhân tạo (AI).

Phương án “đội đỏ” đang chứng tỏ hiệu quả trong việc phát hiện các lỗ hổng an ninh mà các phương pháp bảo mật khác không thể nhìn thấy, giúp các công ty AI tránh việc mô hình của họ bị sử dụng để tạo ra nội dung không mong muốn.

Mục tiêu và tầm quan trọng của chiến lược “đội đỏ” trong lĩnh vực AI

Nỗi lo ngại về nguy cơ bảo mật từ các mô hình AI đang ngày càng gia tăng, thúc đẩy các nhà hoạch định chính sách tìm kiếm giải pháp cho một nền tảng AI an toàn, đáng tin cậy. Sắc lệnh (EO) về AI An toàn, Bảo mật và Đáng tin cậy (14110) được Tổng thống Biden ký ban hành vào ngày 30/10/2018, đã chỉ đạo NIST thiết lập các hướng dẫn, quy trình phù hợp cho phép các nhà phát triển AI, đặc biệt với mô hình nền tảng sử dụng khép, tiến hành “kiểm nghiệm mô hình AI” – cũng chính là phương án “đội đỏ” AI, nhằm triển khai hệ thống AI an toàn, đáng tin cậy.

NIST đã phát hành hai ấn phẩm dự thảo vào cuối tháng 4 để giúp quản lý rủi ro của AI tạo sinh. Các tài liệu này là tài nguyên bổ sung cho Khung quản lý Rủi ro AI (AI RMF) và Khung Phát triển Phần mềm Bảo mật (SSDF).

Văn phòng Bảo mật Thông tin Liên bang Đức (BSI) cung cấp chiến lược “đội đỏ” như một phần của khung IT-Grundschutz rộng lớn hơn của họ. Australia, Canada, Liên minh Châu Âu, Nhật Bản, Hà Lan và Singapore cũng có các khung nổi bật. Nghị viện Châu Âu đã thông qua Đạo luật Trí tuệ Nhân tạo EU vào tháng 3 năm nay.

Khái niệm về “đội đỏ” AI

Thực tế, mô hình đội đỏ đã xuất hiện từ những năm 1960, khi các cuộc tấn công đối nghịch được tạo ra theo dạng mô phỏng nhằm đảm bảo hệ thống máy tính hoạt động ổn định. “Trong máy tính, không có khái niệm ‘an toàn’. Thay vào đó, những gì kỹ sư có thể nói là: chúng tôi đã cố gắng nhưng chưa phá vỡ được nó”, Bruce Schneier, chuyên gia bảo mật và là thành viên tại Trung tâm nghiên cứu Berkman Klein thuộc Đại học Harvard, nói.

Ngày nay, “đội đỏ” còn được biết đến như một kỹ thuật kiểm tra các mô hình AI bằng cách mô phỏng các cuộc tấn công đa dạng và không thể đoán trước, nhằm xác định các điểm mạnh và yếu của chúng. Vì các mô hình AI tạo sinh được huấn luyện trên kho dữ liệu khổng lồ, các phương pháp bảo mật truyền thống rất khó tra ra lỗ hổng.

Nhưng giống như bất kỳ phần mềm máy tính nào, các mô hình này vẫn có chung các lỗ hổng mạng: chúng có thể bị tấn công bởi những kẻ bất chính để đạt được nhiều mục tiêu khác nhau, bao quát việc đưa ra những câu trả lời gây hại, nội dung khiêu dâm, sử dụng tài liệu có bản quyền một cách bất hợp pháp hay để lộ những thông tin dạng cá nhân như tên, địa chỉ và số điện thoại. Mục tiêu của chiến lược là thúc đẩy các mô hình phản ứng và nói ra những điều chưa được lập trình sẵn để làm, bao quát cả việc bộc lộ thành kiến.

Trong đó, các thành viên trong “đội đỏ” sẽ sử dụng các mô hình ngôn ngữ lớn (LLM) để tự động hóa việc tạo lệnh và kịch bản tấn công nhằm tìm và sửa chữa các điểm yếu của mô hình AI tạo sinh ở quy mô lớn.

Ví dụ: Google sử dụng đội đỏ để bảo vệ các mô hình AI khỏi các mối đe dọa như tấn công tiêm nhiễm prompt, tấn công đầu độc dữ liệu và backdoor. Khi các lỗ hổng như vậy được xác định, họ có thể thu hẹp lỗi trong phần mềm và cải thiện chúng.

Giá trị của chiến lược “đội đỏ” trong việc cải thiện an ninh mô hình AI tiếp tục được chứng minh trong các cuộc thi trên toàn ngành. Vào năm ngoái, DEF CON – hội nghị hacker lớn nhất thế giới – đã tổ chức cuộc thi Generative Red Team (GRT) đầu tiên, được coi là một trong những thành công lớn trong việc sử dụng kỹ thuật crowdsourcing.

Các mô hình được cung cấp bởi Anthropic, Cohere, Google, Hugging Face, Meta, Nvidia, OpenAI và Stability. Người tham gia thử nghiệm các mô hình trên một nền tảng đánh giá do Scale AI phát triển.

Chiến lược “đội đỏ” AI của Anthropic

Khi công bố các phương pháp của mình, Anthropic nhấn mạnh sự cần thiết của các quy trình kiểm tra hệ thống hóa và tiêu chuẩn hóa có thể mở rộng. Theo công ty, sự thiếu hụt các tiêu chuẩn chung chính là rào cản lớn cho quá trình kiểm nghiệm mô hình AI trên toàn ngành

Anthropic cũng đồng thời đề xuất bốn phương pháp kiểm nghiệm chính: kiểm nghiệm bởi chuyên gia theo lĩnh vực, sử dụng mô hình ngôn ngữ để kiểm nghiệm, kiểm nghiệm trong các phương thức mới và kiểm nghiệm mở chung.

Điểm đáng chú ý trong cách tiếp cận của Anthropic là sự kết hợp nhuần nhuyễn giữa hiểu biết sâu rộng của con người và kết quả định lượng từ các kỹ thuật kiểm nghiệm. Điển hình như việc Anthropic chú trọng đến vai trò của nhóm chuyên gia theo lĩnh vực, đồng thời ưu tiên áp dụng Kiểm tra Lỗ hổng Chính sách (PVT) – kỹ thuật định tính giúp xác định và triển khai biện pháp bảo vệ an ninh, đặc biệt là trong các lĩnh vực nhạy cảm dễ bị lợi dụng như can thiệp bầu cử, kích động thù địch, nội dung khiêu dâm,…

Giống như nhiều công ty công nghệ khác, Anthropic đang hướng đến tự động hóa quy trình kiểm tra bằng cách sử dụng chính các mô hình AI thực hiện các cuộc tấn công mô phỏng ngẫu nhiên, từ đó phát hiện lỗ hổng. “Chúng tôi tin rằng, khi mô hình AI càng mạnh mẽ, chúng càng có thể hỗ trợ đắc lực cho con người trong việc kiểm tra, tự động hóa quy trình kiểm nghiệm”, Anthropic chia sẻ.

Dựa trên mô hình nhóm đỏ/nhóm xanh, Anthropic sử dụng các mô hình tấn công, “khiêu khích” mô hình AI mục tiêu thực hiện hành vi mong muốn, từ đó thu thập dữ liệu và điều chỉnh, củng cố hệ thống.

Một trong những lĩnh vực then chốt và cũng đầy thách thức mà Anthropic đang theo đuổi chính là kiểm nghiệm đa phương thức. Việc kiểm tra các mô hình AI bằng hình ảnh và âm thanh phức tạp hơn rất nhiều so với văn bản, bởi lẽ kẻ tấn công hoàn toàn có thể “trá hình” mã độc trong hình ảnh, âm thanh, qua mặt hệ thống bảo mật. Minh chứng là dòng mô hình Claude 3 của Anthropic, trước khi ra mắt đã phải trải qua quy trình kiểm tra gắt gao về khả năng xử lý thông tin đa phương tiện, nhằm giảm thiểu các rủi ro tiềm ẩn như lừa đảo, kích động thù địch, hay đe dọa an toàn trẻ em.

Kết luận

Có thể nói, việc kiểm nghiệm mô hình AI đang dần cho thấy vị thế là lớp lá chắn quan trọng, bảo vệ cho sự phát triển bền vững của ngành công nghiệp AI. Sự tham gia của các tập đoàn công nghệ hàng đầu cùng các cơ quan chính phủ cho thấy nỗ lực chung tay kiến tạo một khung pháp lý, kỹ thuật vững chắc, mở ra tương lai cho AI phát triển thịnh vượng nhưng vẫn đảm bảo an toàn và trách nhiệm.