OpenAI và Microsoft đang phải đối mặt với một vụ kiện mới từ Trung tâm Báo cáo Điều tra (CIR). CIR cho biết OpenAI đã sử dụng nội dung được xuất bản từ các trang web Mother Jones và Reveal để đào tạo các phiên bản ChatGPT trước đó.

Cũng đọc: OpenAI loại bỏ giọng nói ChatGPT sau tranh cãi của Scarlett Johansson 

CIR, nguyên đơn nói rằng OpenAI đã sử dụng nội dung của mình mà không được phép hoặc không có lời hứa bồi thường. CIR, được thành lập vào năm 1977, điều hành tạp chí phi lợi nhuận Mother Jones và Reveal của Mỹ. 

CIR kiện OpenAI và Microsoft vi phạm bản quyền 

Trung tâm Báo cáo Điều tra (CIR) đã đệ đơn kiện lên tòa án liên bang ở New York hôm thứ Năm. Tổ chức phi lợi nhuận này cáo buộc OpenAI và Microsoft sử dụng nội dung của họ mà không được phép hoặc bồi thường. CIR cho biết OpenAI đã vi phạm luật bản quyền khi sử dụng nội dung của nó để đào tạo ChatGPT.

Giám đốc điều hành của CIR Monika Bauerlein cho biết: “Hành vi của người lái xe miễn phí này không chỉ không công bằng mà còn vi phạm bản quyền. Công việc của các nhà báo, tại CIR và ở mọi nơi, đều có giá trị và OpenAI và Microsoft biết điều đó.”

🚨[Vụ kiện bản quyền AI] Trung tâm Báo cáo Điều tra (đứng sau @MotherJones & @reveal) khởi kiện OpenAI và Microsoft vì vi phạm bản quyền. Trích dẫn:

“Các bị cáo đã sao chép, sử dụng, rút ​​gọn và hiển thị nội dung có giá trị của CIR mà không có sự cho phép hoặc ủy quyền của CIR, và… pic.twitter.com/SeZ0VtDOMY

– Luiza Jarovsky (@LuizaJarovsky) Ngày 29 tháng 6 năm 2024

Trong đơn khiếu nại chính thức, nguyên đơn đã thuê một nhà khoa học dữ liệu để phân tích cơ sở dữ liệu OpenWebText. OpenWebText là một dạng gần đúng của WebText, là một tập hợp các trang web cóp nhặt được tạo bởi OpenAI. Nhà khoa học dữ liệu nhận thấy rằng tập dữ liệu chứa 17.434 URL từ Mother Jones và 415 từ Reveal. OpenWebText và WebText có số lượng bài viết của Mother Jones hơi khác nhau vì quá trình thu thập dữ liệu diễn ra vào những ngày khác nhau.

Nguyên đơn cho biết trong đơn khiếu nại chính thức,

“Khi họ đưa các tác phẩm báo chí vào bộ đào tạo của mình, Bị cáo có quyền lựa chọn: tôn trọng tác phẩm báo chí hay không. Bị cáo đã chọn cái sau”

Cũng đọc: Nhà khoa học trưởng của OpenAI, Ilya Sutskever, chia tay

OpenAI đã sử dụng hai thuật toán Dragnet và Newspaper để xây dựng cơ sở dữ liệu WebText. Dragnet được thiết kế để tách nội dung bài viết chính khỏi các phần khác của trang web, chẳng hạn như tiêu đề, chân trang, tiêu đề, tên tác giả và thông báo bản quyền. Khi OpenAI loại bỏ trang web của Mother Jones, nó đã xóa mọi thứ ở phần chân trang và phần đầu trang. Ngoài ra, nhà sản xuất ChatGPT đã xóa thông báo bản quyền và thông tin về điều khoản sử dụng theo đơn khiếu nại. 

Hơn nữa, nguyên đơn tuyên bố Microsoft biết rằng các URL được thu thập có nội dung báo chí không có tên tác giả, tiêu đề và thông báo bản quyền, tạo điều kiện cho Bing AI và ChatGPT vi phạm bản quyền.

CIR đang tìm kiếm lợi nhuận từ OpenAI và Microsoft cũng như các thiệt hại thực tế hoặc theo luật định. Số tiền được nêu tối thiểu là 750 USD cho mỗi tác phẩm bị vi phạm và 2.500 USD cho mỗi lần vi phạm DMCA.

OpenAI phải đối mặt với các vụ kiện từ các ấn phẩm khác

Đây không phải là vụ kiện đầu tiên chống lại OpenAI vì vi phạm bản quyền. Kể từ khi phát hành ChatGPT vào cuối năm 2022, OpenAI và Microsoft đã phải đối mặt với vô số vụ kiện từ những tên tuổi lớn như New York Times, The Intercept, New York Daily News và Chicago Tribune.

Cũng đọc: Nhân viên cho rằng OpenAI và Google DeepMind che giấu rủi ro AI

Trong khi đó, một số nhà xuất bản lớn và gã khổng lồ internet đã ký thỏa thuận cấp phép với OpenAI, cấp cho OpenAI quyền truy cập vào kho lưu trữ của họ. Chúng bao gồm Tạp chí TIME, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow và Reddit.

Báo cáo về tiền điện tử của Randa Moses