Theo ProofNews, nhiều tập đoàn công nghệ hàng đầu thế giới, bao gồm Apple, Nvidia và Salesforce, đang bị cáo buộc sử dụng trái phép dữ liệu từ Youtube để huấn luyện AI.

Cụ thể, nhóm nghiên cứu AI phi lợi nhuận EleutherAI đã thu thập phụ đề từ hàng trăm nghìn video Youtube để xây dựng tập dữ liệu “khủng” có tên là Pile. Hành động này được cho là vi phạm nghiêm trọng điều khoản dịch vụ của Youtube.

Được biết, Pile chứa phụ đề của hơn 173.000 video từ hơn 48.000 kênh Youtube, bao gồm cả các video đã bị xóa. Tập dữ liệu này sau đó được sử dụng bởi nhiều công ty công nghệ lớn để huấn luyện các mô hình AI, từ chatbot cho đến công cụ xử lý ngôn ngữ tự nhiên.

Mặc dù một số công ty như Anthropic và Salesforce thừa nhận có sử dụng Pile, nhưng họ lập luận rằng đây là tập dữ liệu “được công khai” và phủ nhận mọi cáo buộc vi phạm bản quyền. Tuy nhiên, ProofNews cho biết danh sách các công ty sử dụng Pile có thể còn dài hơn, vì nhiều đơn vị không công khai nguồn dữ liệu huấn luyện AI.

Điều đáng chú ý là Pile không chỉ chứa nội dung từ các kênh Youtube thông thường, mà còn bao gồm cả video từ các kênh tiền mã hóa nổi tiếng như Coinbase, Cointelegraph và Bitcoin Magazine.

Vụ việc này một lần nữa dấy lên lo ngại về vấn đề bản quyền dữ liệu trong lĩnh vực AI. Các chuyên gia pháp lý cho rằng tranh chấp liên quan đến việc sử dụng dữ liệu Youtube cho mục đích thương mại sẽ ngày càng gia tăng, đặc biệt trong bối cảnh cuộc đua phát triển AI 

ProofNews cho biết, OpenAI và Google trước đây cũng từng thu thập văn bản YouTube. Trong khi Google, công ty sở hữu YouTube, khẳng định hành động của họ nằm trong khuôn khổ thỏa thuận với người dùng, thì OpenAI không xác nhận cũng không phủ nhận báo cáo trên.

Tính đến thời điểm hiện tại, công ty luật Baker Hoestler liệt kê ít nhất mười lăm vụ kiện liên quan đến các công ty công nghệ như: Anthropic, Meta, GitHub, Stability AI, Nvidia và Google. Trong đó, OpenAI đang phải đối mặt với các vụ kiện lớn từ công ty mẹ của Mother Jones và The New York Times. Nhìn chung, tình hình pháp lý về bản quyền dữ liệu trong lĩnh vực AI ngày càng trở nên căng thẳng với những diễn biến phức tạp và khó lường.

Theo dõi Tin tức 24h để không bỏ lỡ bất kỳ diễn biến mới nhất về blockchain tại Diễn đàn phổ cập Blockchain.