Odkryto, że Apple, Nvidia i Anthropic używają napisów YouTube do uczenia modeli sztucznej inteligencji, co jest sprzeczne z zasadami YouTube. Z raportu Proof News i Wired wynika, że ​​takie firmy wykorzystywały zbiór danych zawierający transkrypcje tysięcy filmów na YouTube, nie uzyskując na to odpowiedniej licencji. 

Przeczytaj także: Brytyjski organ nadzoru wszczyna dochodzenie w sprawie pozyskiwania talentów AI przez Microsoft

Badanie wykazało, że Apple, Nvidia i Anthropic korzystały ze zbioru danych napisów YouTube. Ten zbiór danych składa się z transkrypcji 173 536 filmów w YouTube z 48 000 kanałów. Wśród filmów znajdują się kanały edukacyjne, takie jak Khan Academy i MIT, kanały informacyjne, takie jak The Wall Street Journal, oraz czołowi twórcy, tacy jak MrBeast i Marques Brownlee. 

Popularni YouTuberzy reagują na wykorzystanie danych

Marques Brownlee, popularny YouTuber, skomentował tę kwestię w X. Powiedział: „Apple zebrał dane dotyczące sztucznej inteligencji od innych firm. Jeden z nich zebrał wiele danych/transkrypcji z filmów na YouTube, w tym moich. Chociaż Apple mogło nie pobrać danych bezpośrednio, a Brownlee zauważył, że problem będzie się powtarzał.

Zbiór danych „YouTube Subtitles” został opracowany przez EleutherAI i opublikowany w 2020 roku. Zawiera 5,7 GB danych, w tym napisy z filmów YouTube, które zostały usunięte z platformy. 

Zgodnie z warunkami korzystania z serwisu YouTube dostęp do filmów „w sposób zautomatyzowany” jest zabroniony. Istnienie napisów do usuniętych filmów tylko pogłębia problem, rodząc pytania dotyczące prywatności i naruszenia praw autorskich.

Salesforce, organizacja również zamieszana w dochodzenie, również przyznała się do wykorzystania wspomnianego zbioru danych. 

„Zbiór danych Pile, o którym mowa w artykule badawczym, został przeszkolony w 2021 r. do celów akademickich i badawczych. Zbiór danych był publicznie dostępny i udostępniony na podstawie liberalnej licencji.”

Rzecznik Salesforce’a 

Jednak wykorzystywanie treści YouTube bez pozwolenia do dziś budzi kontrowersje. W kwietniu dyrektor generalny YouTube, Neal Mohan, powiedział, że wykorzystywanie filmów, transkrypcji i klipów z YouTube do szkolenia w zakresie sztucznej inteligencji stanowi „wyraźne naruszenie” zasad. Jednak według New York Times OpenAI wykorzystało milion godzin filmów na YouTube do szkolenia swojego modelu GPT-4. 

Wybuchają spory prawne w związku z wykorzystaniem treści internetowych przez firmy zajmujące się sztuczną inteligencją

Problem wykorzystywania przez korporacje AI treści z Internetu bez zezwolenia wzrósł po uruchomieniu ChatGPT. Ponadto twórcy treści pozywają Stability AI i Midjourney za rzekome skrobanie dzieł chronionych prawem autorskim bez pozwolenia. Właściciel YouTube, Google, stanął w obliczu pozwów zbiorowych dotyczących podobnych roszczeń, stwierdzając, że tego rodzaju działania prawne zagrażają podstawom generatywnej sztucznej inteligencji. 

W wywiadzie dla The Wall Street Journal dyrektor ds. technicznych OpenAI Mira Murati nie wyjaśniła, czy firma wykorzystywała filmy z platform mediów społecznościowych do szkolenia nowego modelu. Dyrektor generalny Microsoft AI, Mustafa Suleyman, stwierdził, że treści w otwartej sieci są uznawane za dozwolony użytek od lat 90. XX wieku na podstawie tego, co nazwał „umową społeczną”.