S-a descoperit că Apple, Nvidia și Anthropic folosesc subtitrări YouTube pentru a antrena modele AI, ceea ce contravine politicilor YouTube. Un raport al Proof News și Wired a arătat că astfel de firme au folosit un set de date al transcrierilor de la mii de videoclipuri YouTube fără a obține în mod corespunzător licența pentru a face acest lucru. 

Citește și: Watchdog din Marea Britanie lansează o anchetă privind achiziția de talent AI de către Microsoft

Studiul a arătat că Apple, Nvidia și Anthropic au folosit setul de date YouTube Subtitles. Acest set de date constă din transcrieri de la 173.536 de videoclipuri YouTube de pe 48.000 de canale. Videoclipurile includ canale educaționale precum Khan Academy și MIT, canale de știri precum The Wall Street Journal și creatori de top precum MrBeast și Marques Brownlee. 

YouTuberii populari reacționează la exploatarea datelor

Marques Brownlee, un YouTuber popular, a comentat această problemă pe X. El a spus: „Apple a adunat date pentru AI de la alte firme. Unul dintre ei a colectat o mulțime de date/transcrieri din videoclipurile YouTube, inclusiv ale mele. ” Deși este posibil ca Apple să nu fi răzuit datele direct, Brownlee a subliniat că această problemă va persista.

Setul de date „Subtitrări YouTube” a fost dezvoltat de EleutherAI și publicat în 2020. Conține 5, 7 GB de date, care includ subtitrări din videoclipurile YouTube care au fost eliminate de pe platformă. 

Conform termenilor și condițiilor YouTube, accesarea videoclipurilor prin „mijloace automate” este interzisă. Existența subtitrărilor din videoclipurile eliminate nu face decât să se adauge problemei, ridicând întrebări despre confidențialitate și încălcarea drepturilor de autor.

Salesforce, o organizație implicată și ea în anchetă, a recunoscut că a folosit setul de date menționat. 

„Setul de date Pile menționat în lucrarea de cercetare a fost instruit în 2021 în scopuri academice și de cercetare. Setul de date a fost disponibil public și eliberat sub o licență permisivă.”

Purtătorul de cuvânt al Salesforce 

Cu toate acestea, utilizarea conținutului YouTube fără permisiune este încă controversată până în prezent. În aprilie, CEO-ul YouTube, Neal Mohan, a declarat că utilizarea videoclipurilor, transcrierilor sau clipurilor YouTube pentru instruirea AI este o „încălcare clară” a politicilor. Cu toate acestea, conform New York Times, OpenAI a folosit un milion de ore de videoclipuri YouTube pentru a-și antrena modelul GPT-4. 

Bătălii juridice izbucnesc cu privire la utilizarea de către companiile de inteligență artificială a conținutului de pe internet

Problema corporațiilor AI care utilizează conținut de pe internet fără autorizație a crescut după lansarea ChatGPT. În plus, creatorii de conținut dau în judecată Stability AI și Midjourney pentru că ar fi îndepărtat fără permisiune lucrările protejate prin drepturi de autor. Proprietarul YouTube, Google, s-a confruntat cu procese colective cu privire la pretenții similare, declarând că acțiunile legale de acest fel amenință baza IA generativă. 

Într-un interviu acordat The Wall Street Journal, CTO de la OpenAI, Mira Murati, nu a explicat dacă compania a folosit videoclipuri de pe platformele de socializare pentru a antrena acest nou model. CEO-ul Microsoft AI, Mustafa Suleyman, a declarat că conținutul de pe web deschis a fost considerat drept utilizare echitabilă încă din anii 1990, pe baza a ceea ce el a numit „contractul social”.