Được viết bởi: Giang Giang

Biên tập: Mãn Châu

Sự xuất hiện của ChatGPT và việc áp dụng bùng nổ Midjourney đã cho phép AI đạt được ứng dụng quy mô lớn đầu tiên, tức là sự phổ biến của các mô hình lớn.

Cái gọi là mô hình lớn đề cập đến một mô hình học máy với số lượng lớn tham số và cấu trúc phức tạp, có thể xử lý dữ liệu lớn và hoàn thành nhiều nhiệm vụ phức tạp khác nhau.

01 tranh chấp bản quyền dữ liệu AI

Nếu so sánh các mô hình AI lớn hiện nay với ô tô thì dữ liệu thô là dầu thô. Dù thế nào đi nữa, trước hết mô hình AI cần có đủ “dầu thô”.

Nguồn "dầu thô" chính cho các công ty AI bao gồm các loại sau:

  • Các nguồn dữ liệu công khai và miễn phí trên Internet, chẳng hạn như Wikipedia, blog, diễn đàn, thông tin tin tức, v.v.;

  • Thành lập các cơ quan truyền thông và nhà xuất bản;

  • Các trường đại học và cơ quan nghiên cứu khác;

  • Người dùng bên C sử dụng mô hình.

Quyền sở hữu dầu trong thế giới thực đã có quy định pháp lý hoàn thiện, nhưng trong lĩnh vực AI vẫn còn hỗn loạn, quyền khai thác "dầu thô" vẫn chưa rõ ràng và dẫn đến tranh chấp rất nhiều.

Mới đây, một số hãng âm nhạc lớn đã kiện các công ty sản xuất âm nhạc AI Suno và Udio, cáo buộc họ vi phạm bản quyền. Vụ kiện tương tự như vụ kiện do The New York Times đệ trình chống lại OpenAI vào tháng 12.

Nguồn: Biển quảng cáo

Vào tháng 7 năm 2023, một nhóm nhà văn đã đệ đơn kiện công ty, cáo buộc ChatGPT tạo ra bản tóm tắt tác phẩm của tác giả dựa trên nội dung có bản quyền.

Tháng 12 cùng năm, tờ New York Times cũng đệ đơn kiện vi phạm bản quyền tương tự chống lại Microsoft và OpenAI, cáo buộc hai công ty này sử dụng nội dung của tờ báo để đào tạo chatbot trí tuệ nhân tạo.

Ngoài ra, một vụ kiện tập thể đã được đệ trình ở California cáo buộc rằng OpenAI đã lấy được thông tin cá nhân của người dùng từ Internet mà không có sự đồng ý của họ để đào tạo ChatGPT.

OpenAI cuối cùng đã không trả tiền cho lời buộc tội. Họ tuyên bố rằng họ không đồng ý với lời buộc tội của New York Times và không thể tái tạo các vấn đề được New York Times đề cập. Quan trọng hơn, cái gọi là nguồn dữ liệu do New York Times cung cấp. York Times đã nói rằng điều đó không thành vấn đề đối với OpenAI.

Nguồn: https://openai.com/index/openai-and-journalism/

Đối với OpenAI, có lẽ bài học lớn nhất từ ​​vụ việc này là xử lý đúng đắn mối quan hệ với các nhà cung cấp dữ liệu và làm rõ quyền lợi, trách nhiệm của cả hai bên. Kết quả là chúng ta đã thấy OpenAI đạt được quan hệ đối tác với nhiều nhà cung cấp dữ liệu trong năm qua, bao gồm nhưng không giới hạn ở The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project và hơn thế nữa.

Trong tương lai, OpenAI sẽ sử dụng hợp pháp dữ liệu từ các phương tiện này và các phương tiện này cũng sẽ tích hợp công nghệ của OpenAI vào sản phẩm của họ.

02 AI thúc đẩy kiếm tiền từ nền tảng nội dung

Tuy nhiên, lý do cơ bản nhất để OpenAI đạt được quan hệ đối tác với các nhà cung cấp dữ liệu không phải là sợ bị kiện mà là sự cạn kiệt dữ liệu sắp xảy ra mà machine learning đang phải đối mặt. Một nghiên cứu được thực hiện bởi các nhà nghiên cứu như MIT ước tính rằng các bộ dữ liệu học máy có thể cạn kiệt tất cả “dữ liệu ngôn ngữ chất lượng cao” vào năm 2026.

Do đó, "Dữ liệu chất lượng cao" đã trở thành mặt hàng hot đối với các nhà sản xuất mô hình như OpenAI và Google. Các công ty nội dung và nhà sản xuất mô hình AI đã nhiều lần đạt được sự hợp tác để bắt đầu mô hình lợi nhuận cố định.

Nền tảng truyền thông truyền thống Shutterstock đã liên tiếp đạt được sự hợp tác với các công ty AI như Meta, Alphabet, Amazon, Apple, OpenAI, Reka, v.v. và sẽ tăng doanh thu hàng năm lên 104 triệu USD thông qua cấp phép nội dung cho các mô hình AI vào năm 2023 và đang dự kiến ​​​​sẽ tạo ra doanh thu 250 triệu USD vào năm 2027; Reddit Doanh thu từ bản quyền nội dung được cấp phép cho Google lên tới 60 triệu USD mỗi năm; năm. Tiền bản quyền mà các công ty nội dung nhận được từ các công ty AI đang tăng với tốc độ hàng năm là 450%.

Nguồn ảnh: CX Scoop

Trong vài năm qua, việc kiếm tiền từ nội dung khác ngoài phương tiện truyền thông trực tuyến rất khó khăn, đây là một điểm yếu lớn trong ngành nội dung. So với kỷ nguyên khởi nghiệp trên Internet, sự xuất hiện của AI đã mang lại trí tưởng tượng phong phú hơn và kỳ vọng về doanh thu cao hơn cho ngành công nghiệp nội dung.

03 Dữ liệu chất lượng cao vẫn khan hiếm

Tất nhiên, không phải nội dung nào cũng đáp ứng được nhu cầu của AI.

Một điểm sáng khác liên quan đến cuộc tranh luận nói trên giữa OpenAI và New York Times là chất lượng dữ liệu. Để tinh chế dầu mỏ từ dầu thô, trước hết bản thân dầu phải có chất lượng tốt, thứ hai là công nghệ lọc phải tốt.

OpenAI đặc biệt nhấn mạnh rằng nội dung của New York Times chưa có đóng góp đáng kể nào cho việc đào tạo mô hình của OpenAI so với Shutterstock, vốn cho phép OpenAI chi hàng chục triệu đô la mỗi năm, các phương tiện truyền thông văn bản như New York Times dựa vào đó. tính kịp thời không phải là con cưng của thời đại AI. AI yêu cầu dữ liệu sâu và độc đáo.

Tuy nhiên, dữ liệu chất lượng cao quá khan hiếm và các công ty AI cũng đã bắt đầu nỗ lực phát triển "công nghệ thanh lọc" và "ứng dụng một cửa".

Vào ngày 25 tháng 6, OpenAI đã mua lại công ty cơ sở dữ liệu phân tích thời gian thực Rockset. Công ty này chủ yếu cung cấp các chức năng truy vấn và lập chỉ mục dữ liệu theo thời gian thực. OpenAI sẽ tích hợp công nghệ của Rockset vào các sản phẩm của mình để cải thiện giá trị sử dụng dữ liệu theo thời gian thực.

Nguồn hình ảnh: Quét DePIN

Với việc mua lại Rockset, OpenAI có kế hoạch giúp AI tận dụng tốt hơn và truy cập dữ liệu thời gian thực. Điều này cho phép các sản phẩm của OpenAI hỗ trợ các ứng dụng phức tạp hơn, chẳng hạn như hệ thống đề xuất thời gian thực, chatbot dựa trên dữ liệu động, hệ thống cảnh báo và giám sát thời gian thực, v.v.

Rocket là “bộ phận hóa dầu” tích hợp của OpenAI, có chức năng chuyển đổi trực tiếp dữ liệu thông thường thành dữ liệu chất lượng cao mà các ứng dụng yêu cầu.

04 Việc xác nhận quyền dữ liệu của người sáng tạo có phải là chuyện viển vông không?

Dữ liệu của các nền tảng truyền thông Internet (Facebook, Reddit, v.v.) phần lớn đến từ UGC, tức là nội dung do người dùng đóng góp. Trong khi nhiều nền tảng tính phí dữ liệu cao cho các công ty AI, họ cũng lặng lẽ thêm một điều khoản trong điều khoản người dùng rằng “nền tảng có quyền sử dụng dữ liệu người dùng để đào tạo các mô hình AI”.

Mặc dù các điều khoản của người dùng nêu rõ quyền đào tạo các mô hình AI, nhưng nhiều tác giả không biết mô hình nào đang sử dụng nội dung họ sản xuất, cũng như không biết liệu họ có trả tiền cho nội dung đó hay không, cũng như không thể có được các quyền và lợi ích liên quan đáng lẽ phải thuộc về. đối với họ.

Trong cuộc họp báo cáo thu nhập hàng quý của Meta vào tháng 2, Zuckerberg đã nói rõ rằng anh sẽ sử dụng hình ảnh từ Facebook và Instagram để đào tạo các công cụ tạo AI của mình.

Theo báo cáo, Tumblr cũng đã đạt được thỏa thuận cấp phép nội dung một cách bí ẩn với OpenAi và Midjourney, nhưng nội dung cụ thể của các thỏa thuận cụ thể vẫn chưa được tiết lộ.

Những người tạo ra nền tảng thư viện ảnh EyeEm gần đây cũng nhận được thông báo rằng những bức ảnh họ đăng sẽ được sử dụng để đào tạo người mẫu AI. Thông báo đề cập rằng người dùng có thể chọn không sử dụng sản phẩm, nhưng nó không đề cập đến bất kỳ chính sách bồi thường nào. Công ty mẹ của EyeEm, Freepik, nói với Reuters rằng họ đã ký thỏa thuận với hai công ty công nghệ lớn để cấp phép phần lớn trong số 200 triệu hình ảnh của mình với giá khoảng 3 xu cho mỗi hình ảnh. Giám đốc điều hành Joaquin Cuenca Abela cho biết 5 thương vụ tương tự khác đang được thực hiện nhưng từ chối nêu tên người mua.

Các nền tảng nội dung do UGC dẫn đầu như Getty Images, Adobe, Photobucket, Flickr, Reddit, v.v. đều phải đối mặt với những vấn đề tương tự. Dưới sự cám dỗ to lớn của việc kiếm tiền từ dữ liệu, các nền tảng này chọn cách bỏ qua quyền sở hữu nội dung của người dùng và đóng gói dữ liệu rồi bán cho người dùng. Các công ty mô hình AI

Toàn bộ quá trình được thực hiện trong bóng tối và những người sáng tạo không có cơ hội chống cự. Thậm chí, nhiều người sáng tạo có thể phải đào tạo nội dung tương tự như tác phẩm của chính họ theo mô hình vào một ngày nào đó trong tương lai trước khi họ có cơ hội nghi ngờ rằng tác phẩm trước đó của họ đã được bán cho một công ty AI để đào tạo mô hình trên một nền tảng nhất định.

Web3 có thể là một lựa chọn tốt để giải quyết vấn đề khó khăn trong việc bảo vệ quyền dữ liệu và thu nhập của người sáng tạo. Khi các công ty AI đạt được những đỉnh cao mới trên thị trường chứng khoán Hoa Kỳ, đồng tiền khái niệm AI của web3 cũng tăng vọt cùng lúc. Blockchain, với các đặc điểm phi tập trung và không thể giả mạo, có những lợi thế độc đáo trong việc bảo vệ quyền của người sáng tạo.

Nội dung truyền thông như hình ảnh và video đã hoàn tất việc áp dụng quy mô lớn trên chuỗi trong thị trường tăng trưởng năm 2021 và nội dung UGC của các nền tảng xã hội cũng đang âm thầm diễn ra trên chuỗi. Đồng thời, nhiều nền tảng mô hình AI web3 đã khuyến khích người dùng bình thường đóng góp vào việc đào tạo mô hình, cho dù họ là chủ sở hữu dữ liệu hay người đào tạo.

Sự phát triển theo cấp số nhân của các mô hình AI đã đặt ra nhu cầu lớn hơn về việc xác minh dữ liệu. Người sáng tạo nên suy nghĩ: Tại sao tác phẩm của tôi lại được bán cho một công ty mô hình AI với giá 5 xu một chiếc mà không có sự đồng ý của tôi? Tại sao tôi không được biết về toàn bộ quá trình và không thể đạt được bất kỳ lợi ích nào?

Những nỗ lực bắt cá lớn của nền tảng truyền thông không thể làm giảm bớt nỗi lo lắng về dữ liệu của các công ty mô hình AI. Điều kiện tiên quyết để đạt được dữ liệu chất lượng cao và sản lượng cao là sự xác nhận quyền dữ liệu, tức là sự phân bổ lợi ích hợp lý giữa người sáng tạo, nền tảng và AI. các công ty kiểu mẫu.