Napisał: Jiang Jiang

Redaktor: Manman Zhou

Pojawienie się ChatGPT i gwałtowne przyjęcie Midjourney umożliwiło AI osiągnięcie pierwszego zastosowania na dużą skalę, czyli popularyzację dużych modeli.

Tak zwany duży model odnosi się do modelu uczenia maszynowego o dużej liczbie parametrów i złożonej strukturze, który może przetwarzać ogromne dane i wykonywać różne złożone zadania.

01 Spory dotyczące praw autorskich do danych AI

Jeśli porównamy obecne duże modele sztucznej inteligencji z samochodami, surowymi danymi będzie ropa naftowa. W każdym razie przede wszystkim model AI potrzebuje wystarczającej ilości „ropy naftowej”.

Do głównych źródeł „ropy naftowej” dla firm AI zaliczają się następujące kategorie:

  • Publiczne i bezpłatne źródła danych w Internecie, takie jak Wikipedia, blogi, fora, informacje o nowościach itp.;

  • Założone media informacyjne i wydawnictwa;

  • Uniwersytety i inne instytucje badawcze;

  • Użytkownicy po stronie C, którzy korzystają z modelu.

Własność ropy w realnym świecie ma już dojrzałe regulacje prawne, jednak na wciąż chaotycznym polu AI prawa do eksploatacji „ropy naftowej” są nadal niejasne, a wynikających z tego sporów jest wiele.

Niedawno kilka dużych wytwórni muzycznych pozwało firmy produkujące muzykę AI, Suno i Udio, oskarżając je o naruszenie praw autorskich. Pozew jest podobny do tego, który w grudniu złożył „The New York Times” przeciwko OpenAI.

źródło: billboard

W lipcu 2023 roku grupa pisarzy złożyła pozew przeciwko firmie, zarzucając, że ChatGPT generował streszczenia dzieł autorów w oparciu o treści chronione prawem autorskim.

W grudniu tego samego roku „New York Times” również złożył podobny pozew o naruszenie praw autorskich przeciwko Microsoft i OpenAI, zarzucając obu firmom wykorzystywanie treści gazety do szkolenia chatbotów sztucznej inteligencji.

Ponadto w Kalifornii złożono pozew zbiorowy, w którym zarzucono, że OpenAI uzyskało prywatne informacje użytkowników z Internetu bez ich zgody na szkolenie ChatGPT.

OpenAI ostatecznie nie zapłaciło za oskarżenie Oświadczyli, że nie zgadzają się z oskarżeniem New York Timesa i nie mogą odtworzyć problemów, o których wspomina New York Times. Co ważniejsze, tzw. źródło danych dostarczone przez New York Times York Times brzmiał: Dla OpenAI nie ma to znaczenia.

Źródło: https://openai.com/index/openai-and-journalism/

Być może największą lekcją z tego incydentu dla OpenAI jest właściwe podejście do relacji z dostawcami danych oraz wyjaśnienie praw i obowiązków obu stron. W rezultacie w zeszłym roku zaobserwowaliśmy, że OpenAI nawiązało współpracę z wieloma dostawcami danych, w tym między innymi z The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project i więcej.

W przyszłości OpenAI będzie legalnie wykorzystywać dane z tych mediów, a media te będą również integrować technologię OpenAI ze swoimi produktami.

02 AI napędza monetyzację platformy treści

Jednak najbardziej podstawowym powodem nawiązania przez OpenAI partnerstwa z dostawcami danych nie jest obawa przed pozwem, ale zbliżające się wyczerpywanie danych, przed którym stoi uczenie maszynowe. W badaniu przeprowadzonym przez badaczy takich jak MIT oszacowano, że zbiory danych uczenia maszynowego mogą wyczerpać wszystkie „wysokiej jakości dane językowe” do 2026 r.

Dlatego „dane wysokiej jakości” stały się popularnym towarem dla twórców modeli, takich jak OpenAI i Google. Firmy zajmujące się treściami i producenci modeli AI wielokrotnie nawiązywali współpracę w celu uruchomienia modelu stałego zysku.

Tradycyjna platforma medialna Shutterstock sukcesywnie nawiązuje współpracę z firmami zajmującymi się sztuczną inteligencją, takimi jak Meta, Alphabet, Amazon, Apple, OpenAI, Reka itp., a w 2023 r. zwiększy swoje roczne przychody do 104 mln USD dzięki licencjonowaniu treści do modeli AI i jest oczekuje się, że w 2027 r. wygeneruje 250 mln dolarów przychodów; Reddit Przychody z praw autorskich do treści licencjonowanych dla Google sięgają aż 60 mln dolarów rocznie; Apple stara się także współpracować z głównymi mediami informacyjnymi i oferować tantiemy w wysokości co najmniej 50 mln dolarów od każdego rok. Opłaty licencyjne otrzymywane przez firmy zajmujące się treściami od firm zajmujących się sztuczną inteligencją rosną w tempie 450% rocznie.

Źródło obrazu: CX Scoop

W ciągu ostatnich kilku lat monetyzacja treści innych niż media strumieniowe była trudna, co było głównym problemem w branży treści. W porównaniu z erą przedsiębiorczości internetowej pojawienie się sztucznej inteligencji przyniosło branży treści większą wyobraźnię i większe oczekiwania dotyczące przychodów.

03 Dane wysokiej jakości są nadal niewystarczające

Oczywiście nie wszystkie treści spełniają potrzeby AI.

Kolejnym jasnym punktem we wspomnianej debacie pomiędzy OpenAI a New York Times jest jakość danych. Aby przeprowadzić rafinację ropy naftowej z ropy naftowej, po pierwsze, sama ropa musi być dobrej jakości, a po drugie, musi być dobra technologia oczyszczania.

OpenAI szczególnie podkreśla, że ​​zawartość New York Timesa nie wniosła żadnego znaczącego wkładu w model szkolenia OpenAI. W porównaniu z Shutterstock, który pozwala OpenAI wydawać dziesiątki milionów dolarów rocznie, media tekstowe takie jak New York Times opierają się. aktualność nie jest ulubieńcem ery AI. Sztuczna inteligencja wymaga głębokich i unikalnych danych.

Jednak danych wysokiej jakości jest zbyt mało, a firmy zajmujące się sztuczną inteligencją również rozpoczęły prace nad „technologią oczyszczania” i „kompleksowym zastosowaniem”.

25 czerwca OpenAI przejęło firmę Rockset zajmującą się bazami danych do analizy w czasie rzeczywistym. Firma ta zapewnia głównie indeksowanie danych w czasie rzeczywistym i funkcje zapytań. OpenAI zintegruje technologię Rockset ze swoimi produktami, aby poprawić wartość użytkową danych w czasie rzeczywistym.

Źródło obrazu: Skan DePIN

Wraz z przejęciem Rockset OpenAI planuje zwiększyć wykorzystanie sztucznej inteligencji i uzyskać dostęp do danych w czasie rzeczywistym. Dzięki temu produkty OpenAI mogą obsługiwać bardziej złożone aplikacje, takie jak systemy rekomendacji w czasie rzeczywistym, dynamiczne chatboty oparte na danych, monitorowanie w czasie rzeczywistym i systemy alarmowe itp.

Rocket to wbudowany „dział petrochemiczny” OpenAI, który bezpośrednio konwertuje zwykłe dane na dane wysokiej jakości wymagane przez aplikacje.

04 Czy potwierdzenie praw do danych twórcy to fikcja?

Dane internetowych platform medialnych (Facebook, Reddit itp.) pochodzą w dużej mierze z UGC, czyli treści dodanych przez użytkowników. Chociaż wiele platform pobiera wysokie opłaty za przesyłanie danych od firm zajmujących się sztuczną inteligencją, po cichu dodają one również do warunków użytkownika klauzulę, że „platforma ma prawo wykorzystywać dane użytkowników do uczenia modeli sztucznej inteligencji”.

Chociaż warunki użytkownika wyraźnie wskazują prawa do uczenia modeli sztucznej inteligencji, wielu autorów nie wie, które modele korzystają z tworzonych przez siebie treści, ani czy za to płacą, ani nie mogą uzyskać odpowiednich praw i interesów, które powinny należeć do nich.

Podczas lutowej rozmowy telefonicznej dotyczącej wyników kwartalnych Meta Zuckerberg dał jasno do zrozumienia, że ​​będzie wykorzystywał zdjęcia z Facebooka i Instagrama do szkolenia swoich narzędzi generujących sztuczną inteligencję.

Według doniesień Tumblr w tajemniczy sposób osiągnął także umowy licencyjne na treści z OpenAi i Midjourney, ale konkretna treść konkretnych umów nie została ujawniona.

Twórcy platformy galerii zdjęć EyeEm również niedawno otrzymali powiadomienie, że opublikowane przez nich zdjęcia zostaną wykorzystane do szkolenia modeli AI. W powiadomieniu wspomniano, że w rezultacie użytkownicy mogą zdecydować się na nieużywanie produktu, ale nie wspomniano o żadnej polityce wynagrodzeń. Freepik, spółka matka EyeEm, powiedziała agencji Reuters, że podpisała umowy z dwiema dużymi firmami technologicznymi na licencjonowanie większości z 200 milionów obrazów po około 3 centach za obraz. Dyrektor generalny Joaquin Cuenca Abela powiedział, że w przygotowaniu jest pięć innych podobnych transakcji, ale odmówił podania nabywców.

Platformy treści wykorzystujące treści UGC, takie jak Getty Images, Adobe, Photobucket, Flickr, Reddit itp., borykają się z podobnymi problemami Pod wpływem ogromnej pokusy monetyzacji danych platformy ignorują własność treści użytkowników, pakują dane i sprzedają je Firmy modelujące sztuczną inteligencję.

Cały proces odbywał się w ciemności, a twórcy nie mieli szans się oprzeć. Nawet wielu twórców pewnego dnia w przyszłości może być zmuszonych do trenowania w modelu treści podobnych do ich własnych dzieł, zanim będą mogli podejrzewać, że ich poprzednie prace zostały sprzedane firmie zajmującej się sztuczną inteligencją w celu szkolenia modeli przez określoną platformę.

Web3 może być dobrym wyborem do rozwiązania problemu trudności w ochronie praw twórców do danych i dochodów. Kiedy spółki zajmujące się sztuczną inteligencją osiągnęły nowe maksima na amerykańskiej giełdzie, w tym samym czasie wzrosła także waluta koncepcji sztucznej inteligencji web3. Blockchain, dzięki swoim zdecentralizowanym i niepodlegającym modyfikacjom cechom, cieszy się wyjątkowymi zaletami w zakresie ochrony praw twórców.

Treści medialne, takie jak zdjęcia i filmy, zostały na dużą skalę przyjęte w sieci podczas hossy w 2021 r., a treści UGC na platformach społecznościowych również po cichu dzieją się w sieci. Jednocześnie wiele platform modeli sztucznej inteligencji web3 już zachęca zwykłych użytkowników, którzy wnoszą wkład w szkolenie modeli, niezależnie od tego, czy są właścicielami danych, czy trenerami.

Gwałtowny rozwój modeli sztucznej inteligencji spowodował większe wymagania w zakresie weryfikacji danych. Twórcy powinni zastanowić się: dlaczego moja praca została sprzedana firmie zajmującej się modelowaniem sztucznej inteligencji po 5 centów za sztukę bez mojej zgody? Dlaczego nie byłem świadomy całego procesu i nie mogłem uzyskać żadnych korzyści?

Wysiłki platformy medialnej mające na celu złapanie dużej ryby nie mogą złagodzić obaw firm zajmujących się modelami sztucznej inteligencji dotyczących danych. Warunkiem wstępnym osiągnięcia wysokiej jakości danych i wysokiej wydajności jest potwierdzenie praw do danych, czyli rozsądny podział interesów między twórcami, platformami i sztuczną inteligencją. firmy modelowe.