Scris de: Jiang Jiang

Editor: Manmanzhou

Apariția ChatGPT și adoptarea explozivă a lui Midjourney au permis AI să realizeze prima sa aplicație la scară largă, adică popularizarea modelelor mari.

Așa-numitul model mare se referă la un model de învățare automată cu un număr mare de parametri și o structură complexă, care poate procesa date masive și poate finaliza diverse sarcini complexe.

01 Litigii privind drepturile de autor ale datelor AI

Dacă actualele modele mari de IA sunt comparate cu mașini, datele brute sunt țiței. În orice caz, în primul rând, modelul AI are nevoie de suficient „țiței”.

Principalele surse de „țiței” pentru companiile IA includ următoarele categorii:

  • Surse de date publice și gratuite de pe Internet, cum ar fi Wikipedia, bloguri, forumuri, informații de știri etc.;

  • Presa de știri înființată și edituri;

  • universități și alte instituții de cercetare;

  • Utilizatorii C-side care folosesc modelul.

Proprietatea petrolului în lumea reală are deja reglementări legale mature, dar în domeniul încă haotic al IA, drepturile de exploatare a „țițeiului” nu sunt încă clare, iar disputele rezultate sunt numeroase.

Recent, mai multe case de discuri importante au dat în judecată companiile de producție muzicală AI Suno și Udio, acuzându-le de încălcarea drepturilor de autor. Procesul este similar cu cel intentat de The New York Times împotriva OpenAI în decembrie anul trecut.

Sursa: Billboard

În iulie 2023, un grup de scriitori a intentat un proces împotriva companiei, susținând că ChatGPT a generat fragmente din lucrările autorilor pe baza conținutului protejat prin drepturi de autor.

În decembrie același an, New York Times a depus un proces similar pentru încălcarea drepturilor de autor împotriva Microsoft și OpenAI, acuzând cele două companii că folosesc conținutul ziarului pentru a antrena chatbot-uri de inteligență artificială.

În plus, în California a fost intentată o acțiune colectivă în care se pretinde că OpenAI a obținut informații private ale utilizatorilor de pe Internet fără consimțământul acestora pentru a instrui ChatGPT.

În cele din urmă, OpenAI nu a plătit pentru acuzație Ei au declarat că nu sunt de acord cu acuzația New York Times și nu au putut reproduce problemele menționate de New York Times York Times a fost Nu contează pentru OpenAI.

Sursa: https://openai.com/index/openai-and-journalism/

Pentru OpenAI, poate cea mai mare lecție din acest incident este gestionarea corectă a relației cu furnizorii de date și clarificarea drepturilor și responsabilităților ambelor părți. Drept urmare, am văzut că OpenAI a ajuns la parteneriate cu mulți furnizori de date în ultimul an, inclusiv, dar fără a se limita la, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. și altele.

În viitor, OpenAI va folosi în mod legitim datele din aceste medii, iar aceste medii vor integra, de asemenea, tehnologia OpenAI în produsele lor.

02 AI stimulează monetizarea platformei de conținut

Cu toate acestea, cel mai fundamental motiv pentru care OpenAI ajunge la parteneriate cu furnizorii de date nu este teama de a fi dat în judecată, ci epuizarea iminentă a datelor cu care se confruntă învățarea automată. Un studiu realizat de cercetători precum MIT a estimat că seturile de date de învățare automată pot epuiza toate „datele de limbă de înaltă calitate” până în 2026.

Prin urmare, „date de înaltă calitate” au devenit o marfă fierbinte pentru producătorii de modele precum OpenAI și Google. Companiile de conținut și producătorii de modele AI au ajuns în mod repetat la cooperare pentru a începe un model de profit fix.

Platforma media tradițională Shutterstock a ajuns succesiv în cooperare cu companii de inteligență artificială precum Meta, Alphabet, Amazon, Apple, OpenAI, Reka etc. și își va crește veniturile anuale la 104 milioane USD prin acordarea de licențe de conținut pentru modelele de inteligență artificială în 2023 și este se așteaptă să genereze venituri de 250 de milioane de dolari în 2027. Reddit Veniturile din drepturile de autor asupra conținutului acordate de Google sunt de până la 60 de milioane de dolari pe an an. Redevențele pe care companiile de conținut le primesc de la companiile AI cresc cu o rată anuală de 450%.

Sursa imagine: CX Scoop

În ultimii câțiva ani, a fost dificil să monetizezi conținut, altul decât media streaming, ceea ce a reprezentat un punct de durere major în industria de conținut. În comparație cu epoca antreprenoriatului pe internet, apariția AI a adus o imaginație mai mare și așteptări mai puternice de venituri pentru industria de conținut.

03 Datele de înaltă calitate sunt încă rare

Desigur, nu tot conținutul satisface nevoile AI.

Un alt punct luminos referitor la dezbaterea menționată mai sus dintre OpenAI și New York Times este calitatea datelor. Pentru a rafina uleiul din țiței, în primul rând, uleiul în sine trebuie să fie de bună calitate, iar în al doilea rând, tehnologia de purificare trebuie să fie bună.

OpenAI subliniază în mod special că conținutul New York Times nu a adus nicio contribuție semnificativă la formarea modelului OpenAI, în comparație cu Shutterstock, care permite OpenAI să cheltuiască zeci de milioane de dolari în fiecare an, medii de tip text precum New York Times care se bazează pe. actualitatea nu. Nu draga erei AI. AI necesită date profunde și unice.

Cu toate acestea, datele de înaltă calitate sunt prea rare, iar companiile AI au început, de asemenea, să lucreze la „tehnologia de purificare” și la „aplicație unică”.

Pe 25 iunie, OpenAI a achiziționat compania de baze de date de analiză în timp real Rockset. Această companie oferă în principal funcții de indexare și interogare a datelor în timp real, OpenAI va integra tehnologia Rockset în produsele sale pentru a îmbunătăți valoarea de utilizare în timp real a datelor.

Sursa imagine: DePIN Scan

Odată cu achiziționarea Rockset, OpenAI intenționează să facă AI o mai bună pârghie și să acceseze date în timp real. Acest lucru permite produselor OpenAI să accepte aplicații mai complexe, cum ar fi sisteme de recomandare în timp real, chatbot-uri dinamice bazate pe date, sisteme de monitorizare și alarmă în timp real etc.

Rocket este „departamentul petrochimic” încorporat al OpenAI, care convertește direct datele obișnuite în date de înaltă calitate cerute de aplicații.

04 Confirmarea drepturilor asupra datelor creatorului este o fantezie?

Datele platformelor media de pe Internet (Facebook, Reddit etc.) provin în mare parte din UGC, adică conținutul contribuit de utilizatori. În timp ce multe platforme percepe taxe mari de date companiilor de AI, ele adaugă, în liniște, o clauză în termenii utilizatorilor conform căreia „platforma are dreptul de a folosi datele utilizatorilor pentru a antrena modele de AI”.

Deși termenii de utilizare indică în mod clar drepturile de a instrui modele AI, mulți autori nu știu ce modele folosesc conținutul pe care îl produc, nici nu știu dacă plătesc pentru acesta și nici nu pot obține drepturile și interesele relevante care ar trebui să aparțină. lor.

În timpul apelului trimestrial al Meta în februarie, Zuckerberg a spus clar că va folosi imagini de pe Facebook și Instagram pentru a-și antrena instrumentele de generare a inteligenței artificiale.

Potrivit rapoartelor, Tumblr a ajuns, de asemenea, în mod misterios la acorduri de licențiere a conținutului cu OpenAi și Midjourney, dar conținutul specific al acordurilor specifice nu a fost dezvăluit.

Creatorii platformei de galerie foto EyeEm au primit recent și o notificare că fotografiile pe care le-au postat vor fi folosite pentru instruirea modelelor AI. Anunțul menționa că utilizatorii pot alege să nu folosească produsul ca urmare, dar nu menționa nicio politică de compensare. Compania-mamă a EyeEm, Freepik, a declarat pentru Reuters că a semnat acorduri cu două mari companii de tehnologie pentru a licenția majoritatea celor 200 de milioane de imagini pentru aproximativ 3 cenți per imagine. Directorul executiv Joaquin Cuenca Abela a spus că alte cinci tranzacții similare sunt în lucru, dar a refuzat să identifice cumpărătorii.

Platformele de conținut conduse de UGC, cum ar fi Getty Images, Adobe, Photobucket, Flickr, Reddit etc., toate se confruntă cu probleme similare. Companii model AI.

Întregul proces s-a desfășurat în întuneric, iar creatorii nu au avut nicio șansă să reziste. Chiar și mulți creatori ar putea fi nevoiți să antreneze conținut similar cu propriile lor lucrări într-un model într-o zi în viitor, înainte de a avea ocazia să suspecteze că lucrările lor anterioare au fost vândute unei companii de AI pentru formare de model de către o anumită platformă.

Web3 poate fi o alegere bună pentru a rezolva problema dificultății în protejarea drepturilor de date și a veniturilor creatorilor. Când companiile de inteligență artificială au atins noi cote maxime pe bursa din SUA, moneda conceptului de inteligență artificială a web3 a crescut, de asemenea, în același timp. Blockchain, cu caracteristicile sale descentralizate și nemodificabile, se bucură de avantaje unice în protejarea drepturilor creatorilor.

Conținutul media, cum ar fi imaginile și videoclipurile, a finalizat adoptarea pe scară largă pe lanțul de pe piața taur din 2021, iar conținutul UGC al platformelor sociale se întâmplă, de asemenea, în liniște pe lanț. În același timp, multe platforme de modele web3 AI stimulează deja utilizatorii obișnuiți care contribuie la formarea modelelor, fie că sunt proprietari de date sau formatori.

Dezvoltarea exponențială a modelelor de inteligență artificială a ridicat cerințe mai mari pentru verificarea datelor. Creatorii ar trebui să se gândească la: de ce a fost vândută munca mea unei companii de modele de inteligență artificială pentru 5 cenți pe bucată, fără consimțământul meu? De ce nu am fost ținut la cunoștință de întregul proces și nu am putut obține niciun beneficiu?

Eforturile platformei media de a prinde peștii mari nu pot atenua anxietatea de date a companiilor model AI. Condiția prealabilă pentru obținerea unor date de înaltă calitate și a rezultatelor ridicate este confirmarea drepturilor asupra datelor, care este o distribuție rezonabilă a intereselor între creatori, platforme și AI. companii model.