Niezależnie od tego, czy OpenAI, Google i Meta, sztuczna inteligencja finansuje sektor przemysłowy, co obejmuje różne środki, takie jak gromadzenie lub gromadzenie ogromnych ilości danych cyfrowych na różne kreatywne, ale kontrowersyjne sposoby, jasne jest, że możliwości i możliwości automatyzacji rosną. Warto zauważyć, że wysiłki polegające na podejmowaniu działań opisanych powyżej (tj. uwzględnieniu ograniczeń prawnych i zasad korporacyjnych) są równoważne znacznej ilości danych wykorzystywanych do szkolenia systemów sztucznej inteligencji.

Szeptana inicjatywa OpenAI: wydobywanie rozmów w YouTube

Nasza historia Whisper rozpoczęła się zaledwie w zeszłym roku. Występuje przytłaczający niedobór pierwszorzędnych tekstów w języku angielskim, co powoduje opóźnienia w dostarczaniu edukacji. Szept był kolejnym krokiem Google. Rozumiał ocean dialogów YouTube i został opracowany jako aplikacja tekstowa do zamiany tekstu na mowę. Samo narzędzie oparte na sztucznej inteligencji, składające się z ponad miliona godzin filmów z YouTube poddanych audytowi przez sztuczną inteligencję w celu wygenerowania nowych tekstów (w zasadzie nowej rozmowy), zostało wykorzystane do szkolenia modeli sztucznej inteligencji stworzonych na podstawie najnowocześniejszych technologii aż do GPT-4, najnowszej wersji chatbota ChatGPT.

Mimo że niektórzy pracownicy argumentowali, że materiały Microsoftu OpenAI będą plagiatem YouTube w całej rozciągłości, etyka plagiatu była nadal dyskusyjna; ponadto część pracowników przyznała, że ​​nie da się precyzyjnie dopasować do zamierzeń YouTube. Podobnie, sprzeciw wobec algorytmicznego przetwarzania filmów w celu wyodrębnienia treści tekstowych na potrzeby sztucznej inteligencji. modele mogły zostać uznane za zagrożenie dla praw autorskich twórców filmów, wywołując oburzenie.

Meta, spółka matka Facebooka i Instagrama, również obawiała się wykorzystywania chronionych prawem autorskim elementów pochodzących z wydawnictw takich jak m.in. Simon & Schuster. Jednocześnie omówiono także nabywanie ogólnych treści internetowych, co może potencjalnie skutkować naruszeniem praw autorskich.

Załamanie danych: wdrażanie niekonwencjonalnych podejść

Gromadzenie danych pełne konkurencji pomaga dostrzec kluczową pozycję danych i zidentyfikować je w rozwoju technologii AI. Język w sztucznej inteligencji steruje coraz większą liczbą zbiorów danych szkoleniowych, w tym Wspólnoty Narodów, które są obecnie manipulowane aż do Wikipedii i Reddita spoza tych źródeł. Dla firm technologicznych – zwłaszcza tych, które mają trudności z dostępem do bardzo powszechnych źródeł danych, takich jak tradycyjne magazyny danych – tworzenie modeli opartych na sztucznej inteligencji może być alternatywnym rozwiązaniem, które w takich przypadkach może być wystarczająco pożądane.

Firmy zajmujące się technologią wskazują, że gromadzenie danych jest niezbędne do szkolenia AI, podczas gdy ten sam proces jest kwestionowany prawnie w sądzie. W swojej obronie OpenAI i Microsoft wygrały postawiony im zarzut dotyczący nielegalnego wykorzystania materiałów objętych prawami autorskimi. Mimo to stwierdzili, że ich działania mieszczą się w prawnej zasadzie dozwolonego użytku. W ostatnich latach liczba wniosków składanych do amerykańskiego Urzędu ds. Praw Autorskich przez posiadaczy praw autorskich przekroczyła liczbę 10 000, co jednoznacznie pokazuje, że prawo autorskie w erze sztucznej inteligencji jest wyjątkowe i zupełnie nowe. W związku z tym główni gracze zawsze konfrontują się z niebezpieczeństwami związanymi z naruszeniem wielu utworów pod pozorem braku licencjonowanych celów dla modeli wykorzystujących na tej podstawie sztuczną inteligencję.

Konieczność stosowania ogromnych zbiorów danych

Ogólnie rzecz biorąc, praca Kaipana de Jareda, naukowca na dużą skalę, w niezamierzony sposób odegrała kluczową rolę w rozwoju sztucznej inteligencji. Treści oparte na danych są jednym z elementów sztucznej inteligencji potrzebnym w procesie szkoleniowym, ale nie mogą dobrze funkcjonować bez modeli, które zostały dobrze przeszkolone i działają skutecznie. Wraz z rozwojem technologii sztucznej inteligencji zapotrzebowanie na dane, aby odnieść sukces na rynku, rośnie w szybkim tempie, pozostawiając firmy z pytaniami związanymi z prawem, etyką i prywatnością. Dlatego algorytmy sztucznej inteligencji muszą wykorzystywać te zbiory danych, aby odnieść sukces rynkowy.

Zachowanie gromadzenia danych przez V.IP jest zniekształcane w celu ulepszeń AI; zaostrza się typową przysięgę metodologiczną. Niezależnie od tego, czy chodzi o rozmowy w YouTube, czy o tworzenie syntetycznych danych, firmy te są liderami, których misją jest odkrycie, jakie naprawdę są kwestie prawne, etyczne i dotyczące prywatności.

Mogą później stać się żartem na morzu. Ze względu na pojawienie się ogromnych zbiorów danych potrzebnych do napędzania procesu innowacji, liderzy społeczeństwa mają obowiązek aktywnie uczestniczyć w konstruktywnym dialogu w celu opracowania zasad i standardów, w których wysiłki innowacyjne będą zrównoważone z zasadami etycznymi dotyczącymi praw własności intelektualnej i prywatności.

Oryginalna historia z: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html