AI Companies Navigate Legal Gray Areas for Training Data

Apspriežot nesenās debates par to, kā Open un Google iegūst savus datus, lai tie atbilstu modelim, jūs ievērosiet, ka debatēs vairāk dominē divi termini: open un Google. The Wall Street Journal un NY Times nesen publicētie raksti ilustrē, ka tas, kā ar AI saistīti uzņēmumi vāc datus, nebija atbilstoši mērķim un radīja galvassāpes par to, kuri dati ir patiesi un kāds ētiskais leņķis tika izmantots, veidojot ar AI saistīto sistēmu. .
OpenAI apšaubāmā taktika
Tomēr savā kulminācijā New York Times uzsvēra lielākus Open AI rezultātus, kas izklāstīti ar Whisper. Šis audio-teksta transkripcijas modelis ir uzlabots kā Open AI valodas procesora LP-4 tehnoloģijas papildinājums. Patiešām, OpenAI pašbraucošā automašīna nav saistīta ar informācijas vākšanu, kas ir sarežģīts jautājums, ar kuru uzņēmums sazinās; drīzāk pēdējais tiek izmantots šādos apstākļos.
Lai gan datu vākšanas aktu sākotnējā popularitāte bija saistīta ar godīgas izmantošanas autortiesību apsvērumiem, pēdējie arī kļuva par šo aktu juridisko pamatu. Kā teica Brokmens, viens no OpenAI dibinātājiem un izpilddirektors sniedza informāciju, kas nepieciešama transkripcijai. Tomēr viņš turpina teikt, ka vēsturnieks arī devis savu ieguldījumu transkripcijā.
Tomēr Google Corporation ieņem galveno vietu pat šo mazo problēmu risināšanā tādos lielos uzņēmumos kā šis, tas ir, datu vākšanas funkcija, piemēram, OpenAI, ir mazāka organizācija un iesaistās projektos, kas ir vērsti uz nozares milzi, un lietotājs tika tikai brīdināts. un YouTube nepateica, kurš ir vainojams. 
Papildus šai pieejai Facebook aptvēra arī TOS atbilstības bāzi un aizliedza nesankcionētas darbības, īpaši tā saukto datu nokasīšanu. Džona Konlija (YouTube pārstāvis) gadījumā viņš atbildēja uz jautājumu, vai modeļi tika izmantoti uz saturu balstītai AI apmācībai pēc datu vākšanas no satura veidotājiem.
Gluži pretēji. Kā arī trenažieri, kurā pusē Meta ir aktuāla problēma, kas noved pie tās neiespējamības. AI grupa uzņēmumā, kas bija veiksmīga OpenAI sāncensībā, uzskatīja, ka abas komandas izmantoja visus pieejamos līdzekļus, lai strādātu pie labāka iznākuma saviem uzņēmumiem, tostarp oriģinālo domāšanu, nepievēršot uzmanību nevienam jautājumam par labu noraidītajai pusei. 
Šķiet, ka Meta ir sagatavojusi veidu jautājumus, uz kuriem viņi tiecās iegūt atbildes par to, kāds deleģētais darbs tiks veikts, kurš būs atbildīgs par grāmatu iegādi, no kurām izdevēji specializējas konkrētās jomās. Lai gan tīkla lietotāju pieredze ir ārkārtīgi pārsteidzoša, iedibinātā valdības politika ir ieguvusi iniciatīvu iejaukties personas privātuma jomā, ko 2018. gadā uzsvēra Cambridge Analytica lieta.
Plašāka AI apmācības ainava saskaras ar neatliekamu dilemmu: no vienas puses, jautājums par datu trūkumu pēdējos pāris gados ir kļuvis aktuālāks, no otras puses. Lai gan saikne starp abiem saglabājas, pētnieki vienmēr uzstāj, lai būtu atbilstoši dati, lai uzlabotu precizitāti un veiktspējas palielināšanu. 
Arī Wall Street Journal prognozes pamodina entuziasmu, kas paredz augstākus rādītājus, kas pārsniedz visus mērķus līdz 2020. gadam, un šķērso gada beigas ar augstāko tirgus punktu. Šīs metodes pamatā ir divi faktori: paļaušanās uz modeļiem, kas var būt sintētiski, lai noteiktu ārējo matricu, un lēmumu pieņemšanas procesa mācību programma, kurā modeļi mācās no saviem lēmumiem. Negaidiet, ka tie radīs rezultātus, bet ļaujiet tiem būt novērojamiem.
Juridiskās un ētiskās sekas
Pirātisma noteikuma neesamība var radīt problēmas, jo nekas nevar ļaut lietotājiem piekļūt ar autortiesībām aizsargātajiem priekšmetiem, un var rasties izpratne par misiju saistībā ar likumu, ētiku utt. Vai dati kļūst par nemateriālu īpašumu un par pamatu, lai uzzinātu un norādītu, kas pieder jums un kas tā nav, kuri dati un lietotājs ir zināms kā uzņēmuma avots, ja šo datu izmantošana ir nepamatota? Šis risks būtu saistīts ar pētniecības un attīstības komandas programmu, kas liek koncentrēties uz to pārskatīšanu un atbilžu izstrādi. 
Attiecības grupas rīcības kampaņu nolūkos nozīmētu, ka privātums un datu izmantošana ir atbildes, ko organizācija nezina pietiekami, lai padarītu tās darbības likumīgas. Patiešām, izaicinājumi (piemēram, ētikas jautājumi saistībā ar AI pētniecībai un izstrādei izmantoto datu ieguves procesu) kļūst sarežģīti, jo mums ir jāņem vērā regulējuma ierobežojumi un datu privātums (jo datu būtība ir kontekstā). par to, kā dati tiek apstrādāti un izmantoti).
Nākotnes vissmagākā AI konkurence ir AI sistēmu apmācībai labāko datu noteikšana, un vēl jo vairāk tas ir par to, vai šādi dati tiks pakļauti kopējam ētiskajam vai juridiskajam regulējumam. Viss ap AI savā būtībā uzsver un paplašina tādus jēdzienus kā inovācija un ieviešana, izmantojot datu kopu filtrus uzņēmumiem. 
Tehnoloģiskais mākslīgais intelekts nekad nav statisks, tāpēc galvenā problēma vienmēr būs datu izmantošana, un tā arī turpmāk būs viena no prioritātēm kopienas locekļiem, kuri veidojas, izmantojot mākslīgo intelektu, vislabāk.
Sākotnējais stāsts no: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb
Apskati vairāk satura no autora

Jaunākās ziņas