The New York Times ujawnia metodologię stosowaną przez OpenAI do gromadzenia milionów godzin transkrypcji wideo w serwisie YouTube w celu generowania ogromnych danych wymaganych przez ich potężny model sztucznej inteligencji GPT-4. Choć może się wydawać, że firmy te podążają tą samą ścieżką, tworząc kolejkę prowadzoną przez gigantów Google i Meta, droga ta nabiera tempa w miarę unowocześniania technologii AI. Wszystko to prowadzi do pytania o „przepaść cyfrową” i jej wpływ na zdolność jednostki do uczestnictwa w gospodarce, szczególnie w kwestiach takich jak prawa autorskie i etyka danych.

Odważna taktyka gromadzenia danych OpenAI

OpenAI wykrył i przeanalizował tę zawartość YouTube. Strategia ta, mimo innowacyjnego charakteru swobodnego użytkowania, odwołuje się do zasad uczciwego wykorzystania, które jest warunkiem możliwości tej firmy. Nagrywanie filmów na YouTube, jeden z etapów procesu uczenia się AI, którego właścicielem jest Google, rodzi obawy związane z naruszeniem praw autorskich i kwestiami etycznymi związanymi z wykorzystaniem danych bez zgody autora.

Co zabawne, po tym, jak Google znalazł się pod ostrzałem jako firma będąca właścicielem YouTube z tego samego powodu, rzekomo zaangażowała się w takie praktyki w przypadku swoich modeli sztucznej inteligencji. Ten wspólny proces szpiegowania jest niewątpliwie fantazyjną częścią raportu, który dodatkowo ujawnia mylące granice etyczne i prawne firm technologicznych w ich wysiłkach związanych ze sztuczną inteligencją. Z drugiej strony Google wspomniało, że może uzyskać zgodę twórcy na wykorzystanie filmów przed przeszkoleniem systemu sztucznej inteligencji na tych danych, co ostatecznie stanie się punktem spornym w narracji.

Rewizja polityki prywatności

Jednym z głównych wydarzeń tego było podjęcie przez Google korporacyjnego działania mającego na celu zmianę polityki prywatności do końca czerwca 2023 r. Strategia miała zatem na celu pogłębienie zdolności firmy do czerpania korzyści z publicznie dostępnych źródeł danych, począwszy od dokumentów Google po Mapy Google przeglądy, mające na celu wzmocnienie innowacji opartych na sztucznej inteligencji. Wskazuje to na szersze zjawisko w sektorze technologii, w którym firmy z branży Big Tech odgrywają wiodącą rolę zarówno w obszarze innowacji, jak i prywatności użytkowników, starając się zapewnić odpowiednią równowagę w obu obszarach.

To właśnie teraz w przypadku tych technologicznych gigantów ujawnienie przez OpenAI i Google ich praktyk gromadzenia danych bez wyraźnej zgody rodzi pytania dotyczące przebiegu rozwoju sztucznej inteligencji i etycznego wykorzystania danych. Bloomberg zacytował na ten temat Neila Mohana, dyrektora generalnego YouTube, który stwierdził, że platforma nie pozwala na pobieranie tych nieautoryzowanych źródeł.

Implikacje branżowe i prawne

Następnie ze względu na niejednoznaczność zostaje podniesiona kwestia moralności i legalności tych prób gromadzenia danych. Kolejnym obszarem wymagającym poprawy są problemy związane z plagiatem, ponieważ tego typu podejścia mogą być kreatywne, ale także powodować problemy z prawami autorskimi. Kwestie prywatności są również problemem w tej branży. Jednakże zasięg tych błędów nie ogranicza się tylko do problemów prawnych i etycznych, ale znacznie wykracza poza te problemy. Spośród obfitości zwracają uwagę na bardziej znaczący wyścig technologiczny (technologia AI), którego celem jest wykorzystanie danych do usprawnienia postępu AI.

 W miarę jak pionierzy technologii sztucznej inteligencji, tacy jak OpenAI i Google, dążą do poszerzania zakresu kolejnego paradygmatu sztucznej inteligencji, poszerza się debata na temat ilości danych, jakie można wykorzystać, jakie są względy związane z ochroną praw autorskich oraz ogromnych konsekwencji społecznych zastosowań sztucznej inteligencji. Łączenie innowacji z etyką prowadzi do bardziej złożonego obrazu, wymagającego opracowania zasad regulacji i jasnych polityk.

Działanie OpenAI i Google przy pobieraniu filmów z YouTube w celach szkoleniowych rodzi wielowymiarowe zagadnienie o charakterze subiektywnym, na które składa się wymiar prawny, etyczny i technologiczny. Dlatego sektor technologiczny nieustannie stoi przed wyzwaniami, takimi jak innowacje, prywatność i etyka, bez których nie można zapewnić dalszego wzrostu. Dyskusja na temat tych kwestii będzie kontynuowana. Mimo to obejmie także wszystkich interesariuszy w społeczeństwie, od prawników po samych twórców sztucznej inteligencji, aby ostatecznie zaproponować proponowane rozwiązanie.

Oryginalna historia z https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/