Omawiając niedawną debatę na temat tego, jak Open i Google dopasowują swoje dane do modelu, można zauważyć, że w debacie bardziej dominują dwa terminy: open i Google. Artykuły opublikowane niedawno w The Wall Street Journal i NY Times pokazują, że sposób, w jaki firmy powiązane ze sztuczną inteligencją gromadzą dane, nie był odpowiedni i wywołał ból głowy w związku z tym, które dane są prawdziwe i jaki punkt etyczny zastosowano przy tworzeniu systemu związanego ze sztuczną inteligencją .

Wątpliwa taktyka OpenAI

Jednak w szczytowym okresie New York Times podkreślił większe wyniki otwartej sztucznej inteligencji przedstawione w Whisper. Ten model transkrypcji audio na tekst jest zaawansowanym uzupełnieniem technologii LP-4, procesora językowego Open AI. Rzeczywiście, autonomiczny samochód OpenAI nie polega na gromadzeniu informacji, co stanowi trudną kwestię, z którą firma się kontaktuje; raczej to drugie wchodzi w grę w takich warunkach.

Choć początkowa popularność ustaw o gromadzeniu danych była związana z względami praw autorskich do dozwolonego użytku, to te ostatnie stały się również podstawą prawną tych ustaw. Jak to ujął Brockman, jeden z członków założycieli i dyrektor generalny OpenAI dostarczył pewnych informacji niezbędnych do transkrypcji. Dodaje jednak, że historyk również przyczynił się do transkrypcji.

Jednak Google Corporation zajmuje centralne miejsce nawet w przypadku tych drobnych problemów w przypadku większych przedsięwzięć, takich jak to, to znaczy funkcja gromadzenia danych, taka jak OpenAI, jest mniejszą organizacją i angażuje się w projekty skierowane do giganta branżowego, a użytkownik został tylko ostrzeżony i nie powiedziano, kogo obwinia YouTube. 

Oprócz takiego podejścia Facebook zadbał także o przestrzeganie zasad zgodności z TOS i zakazał nieautoryzowanych działań, zwłaszcza tzw. data scrapingu. W przypadku Johna Conly’ego (rzecznika YouTube) odpowiedział on na pytanie, czy modele zostały wykorzystane do szkolenia AI opartej na treści po zebraniu danych od twórców treści.

Przeciwnie. Podobnie jak maszyny szkoleniowe, po której stronie Meta jest aktualnym problemem prowadzącym do jego niewykonalności. Grupa AI w firmie, która odniosła sukces w rywalizacji OpenAI, uznała, że ​​oba zespoły wykorzystały wszystkie dostępne środki, aby wypracować lepszy wynik dla swoich firm, włączając w to oryginalne myślenie, bez zwracania uwagi na jakąkolwiek kwestię na korzyść strony odrzuconej. 

Wydaje się, że Meta przygotowała rodzaje pytań, które miały na celu uzyskanie odpowiedzi na pytanie, jaka oddelegowana praca będzie wykonywana, kto będzie odpowiedzialny za zakup książek od wydawców specjalizujących się w określonych dziedzinach. Chociaż doświadczenia użytkowników sieci są niezwykle zdumiewające, ustalona polityka rządu przejęła inicjatywę ingerencji w prywatność jednostek, co w 2018 r. uwypukliła afera Cambridge Analytica.

Szerszy krajobraz szkoleń w zakresie sztucznej inteligencji stoi przed palącym dylematem: z jednej strony kwestia niedoboru danych stała się w ciągu ostatnich kilku lat bardziej dotkliwa, z drugiej strony. Chociaż związek między nimi pozostaje, badacze zawsze nalegają na posiadanie odpowiednich danych w celu zwiększenia dokładności i zwiększenia wydajności. 

Entuzjazm budzą także prognozy „Wall Street Journal”, które przewidują wzrosty powyżej wszystkich celów na wcześniejszy rok 2020 i przecięcie roku z najwyższym punktem rynkowym. Metoda ta opiera się na dwóch czynnikach: poleganiu na modelach, które mogą być syntetyczne do zewnętrznej matrycy stanu, oraz na programie nauczania procesu decyzyjnego, w którym modele uczą się na podstawie swoich decyzji. Nie oczekuj, że przyniosą rezultaty, ale pozwól, aby były zauważalne.

Implikacje prawne i etyczne

Brak przepisu dotyczącego piractwa może powodować problemy, ponieważ nic nie pozwala użytkownikom na dostęp do przedmiotów chronionych prawem autorskim, a może pojawić się zrozumienie misji wokół prawa, etyki itp. Czy dane stają się wartością niematerialną i podstawą poznania i określenia tego, co jest twoje i co? nie jest, w którym wiadomo, że dane i użytkownik są źródłem działalności gospodarczej, gdy wykorzystanie tych danych jest nieuzasadnione? Ryzyko to wiązałoby się z tym, że liderzy programów zespołu badawczo-rozwojowego mogliby skoncentrować się na ich przeglądaniu i opracowywaniu odpowiedzi. 

Związek między celem kampanii pozwów zbiorowych oznaczałby, że prywatność i wykorzystanie danych to odpowiedzi, o których organizacja nie wie na tyle, aby zapewnić legalność swoich działań. Rzeczywiście wyzwania (takie jak kwestie etyczne dotyczące procesu eksploracji danych wykorzystywanego do badań i rozwoju sztucznej inteligencji) stają się skomplikowane, ponieważ musimy wziąć pod uwagę ograniczenia regulacyjne i prywatność danych (ponieważ charakter danych mieści się w kontekście sposobu przetwarzania i wykorzystywania danych).

Najtrudniejsza rywalizacja w przyszłości w zakresie sztucznej inteligencji polega na identyfikowaniu najlepszych danych do szkolenia systemów sztucznej inteligencji, a co ważniejsze, chodzi o to, czy dane te zostaną poddane wspólnym ramom regulacyjnym etycznym lub prawnym. Wszystko wokół sztucznej inteligencji ze swej natury podkreśla i poszerza pojęcia takie jak innowacja i wdrażanie za pomocą filtrów zbiorów danych dla korporacji. 

Bycie technologiczną sztuczną inteligencją nigdy nie jest statyczne, więc głównym problemem zawsze będzie wykorzystanie danych i nadal będzie to jeden z priorytetów członków społeczności, którzy przybierają najlepszą formę poprzez wykorzystanie sztucznej inteligencji.

Oryginalna historia z: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb