Trình thu thập web của Anthropic đã truy cập website iFixit gần một triệu lần trong 24 giờ khiến hệ thống của công ty gặp trục trặc, theo The Verge.

Vào ngày 24/7, Giám đốc điều hành của iFixit, ông Kyle Wiens, đã công khai chỉ trích Anthropic trên nền tảng X (trước đây là Twitter) về việc công cụ thu thập dữ liệu ClaudeBot của họ truy cập vào trang web iFixit với tần suất dày đặc chỉ trong vòng 24 giờ. Ông Wiens cho biết hành động này đã kích hoạt hệ thống cảnh báo và buộc đội ngũ kỹ thuật của iFixit phải vào cuộc.

Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?You're not only taking our content without paying, you're tying up our devops resources. Not cool.

— Kyle Wiens (@kwiens) July 24, 2024

Điều đáng nói, Điều khoản Sử dụng của iFixit nghiêm cấm việc sao chép hoặc phân phối nội dung website mà không có văn bản cho phép, đặc biệt là cho mục đích huấn luyện AI. Khi được 404 Media hỏi về vấn đề này, Anthropic đã dẫn link đến trang Câu hỏi thường gặp, trong đó nói rằng trình thu thập dữ liệu của họ chỉ có thể bị chặn thông qua tệp robots.txt.

Phản hồi lại, iFixit đã cập nhật tệp robots.txt để chặn ClaudeBot. Ông Wiens xác nhận rằng Anthropic đã dừng việc thu thập dữ liệu sau khi iFixit thực hiện thay đổi. Phía Anthropic, qua người phát ngôn Jennifer Martinez, cũng khẳng định rằng họ “tôn trọng tệp robots.txt”.

Tuy nhiên, iFixit không phải là trường hợp duy nhất. Đồng sáng lập Read the Docs, Eric Holscher, và Giám đốc điều hành Freelancer.com, Matt Barrie, cũng cho biết trang web của họ đã bị trình thu thập dữ liệu của Anthropic truy cập quá mức.

Trên thực tế, đã có nhiều bài đăng trên Reddit từ vài tháng trước báo cáo về việc ClaudeBot gia tăng hoạt động thu thập dữ liệu web. Vào tháng 4 năm nay, diễn đàn web Linux Mint thậm chí còn đổ lỗi cho ClaudeBot là nguyên nhân gây ra sự cố sập trang web do hoạt động thu thập dữ liệu.

Anthropic đã tạo ra một số chatbot tiên tiến nhất thế giới nhằm cạnh tranh với ChatGPT của OpenAI. Nguồn: Reuters  

Việc chặn trình thu thập dữ liệu thông qua tệp robots.txt cũng là phương pháp được nhiều công ty AI khác như OpenAI lựa chọn. Tuy nhiên, phương pháp này không cho phép chủ sở hữu trang web linh hoạt trong việc quyết định loại dữ liệu nào được phép thu thập. Thậm chí, một công ty AI khác là Perplexity, được cho là đã bỏ qua hoàn toàn robots.txt.

Vụ việc của Anthropic và iFixit một lần nữa dấy lên lo ngại về vấn đề bản quyền và sử dụng dữ liệu trong lĩnh vực trí tuệ nhân tạo. Mặc dù các công ty AI như Anthropic cho rằng việc này là cần thiết để đào tạo các mô hình AI hiệu quả, nhưng nhiều website lại lo ngại về việc dữ liệu của họ bị sử dụng mà không có sự cho phép.