Công ty dịch vụ đám mây Cloudflare vừa cho ra mắt công cụ mới giúp ngăn chặn bot AI thu thập dữ liệu trái phép từ các trang web.

Trong bối cảnh nhu cầu về dữ liệu huấn luyện các mô hình trí tuệ nhân tạo (AI) ngày càng gia tăng, nhiều công ty AI đã triển khai bot để “cào” dữ liệu từ các trang web, dẫn đến nguy cơ xâm phạm bản quyền và sử dụng thông tin trái phép.

Mặc dù một số công ty AI như Google, OpenAI và Apple cho phép chủ sở hữu website chặn bot thông qua tệp robots.txt, nhưng Cloudflare lo ngại một số công ty AI có thể tìm cách “lách luật” để thu thập dữ liệu, bất chấp các biện pháp kiểm soát nội dung.

Chia sẻ với TechCrunch, công ty nhận định, “Khách hàng không muốn bot AI truy cập vào website của họ.”

Phân bố các User-Agent bị chặn trong tệp robots.txt”

Thực tế, chỉ riêng OpenAI, nhiều nghiên cứu đã chỉ ra hơn 600 nhà xuất bản tin tức và 26% trong số 1.000 trang web hàng đầu đã tắt bot của hãng này.

Trước thực trạng này, Cloudflare đã nghiên cứu và phân tích hoạt động của bot AI, từ đó tinh chỉnh thuật toán phát hiện bot tự động. Thuật toán sẽ xem xét nhiều yếu tố, bao gồm cả việc bot AI có đang cố gắng “giả dạng” người dùng web hay không.

Cloudflare cho biết: “Các tác nhân xấu thường sử dụng công cụ và framework để thu thập dữ liệu trên diện rộng. Dựa trên những dấu hiệu này, thuật toán của chúng tôi có thể gắn cờ bot AI một cách chính xác.”

Công cụ mới này hoàn toàn miễn phí cho các website sử dụng nền tảng của Cloudflare. Chủ sở hữu website cũng có thể báo cáo các bot AI đáng ngờ, Cloudflare sẽ xem xét và đưa vào danh sách đen.

Bên cạnh Cloudflare, Reddit cũng có động thái tương tự khi thông báo sẽ chặn phần lớn bot tự động sử dụng dữ liệu của họ mà không có giấy phép. Theo Mashable, Reddit sẽ sửa đổi file robots.txt để hạn chế các trình thu thập dữ liệu web.

Mặc dù vậy, việc chặn bot không phải lúc nào cũng hiệu quả. Một số công ty AI bị cáo buộc phớt lờ quy tắc robots.txt để giành lợi thế cạnh tranh. Công cụ tìm kiếm AI Perplexity bị cáo buộc giả mạo người dùng để “cào” nội dung, trong khi OpenAI và Anthropic được cho là đã nhiều lần vi phạm robots.txt.

Các công cụ như của Cloudflare có thể hữu ích nếu chúng chứng tỏ được độ chính xác trong việc phát hiện các bot AI ẩn danh. Tuy nhiên, chúng không giải quyết được vấn đề lớn hơn về việc các nhà xuất bản phải hy sinh lưu lượng truy cập từ các công cụ AI như AI Overviews của Google, vốn loại trừ các trang web khỏi danh sách nếu chúng chặn các crawler AI cụ thể.

Trong báo cáo “Tình hình An ninh Ứng dụng 2024” mới công bố, Cloudflare cho biết các nhóm an ninh mạng đang gặp khó khăn trong việc đối phó với nguy cơ từ ứng dụng hiện đại.

Theo đó, chuỗi cung ứng phần mềm, tấn công DDoS và bot độc hại đang là những thách thức lớn đối với đội ngũ an ninh ứng dụng chuyên nghiệp. Cloudflare nhấn mạnh rằng họ ngăn chặn 209 tỷ cuộc tấn công mạng mỗi ngày cho khách hàng của mình.

Đồng sáng lập kiêm CEO Cloudflare, Matthew Prince, nhận định các ứng dụng trực tuyến thường được xây dựng mà ít quan tâm đến bảo mật, khiến chúng dễ bị tấn công.