Când discutați despre dezbaterea recentă despre modul în care Open și Google își potrivesc datele ca model, veți observa că doi termeni domină mai mult dezbaterea: open și Google. Articolele publicate în The Wall Street Journal și NY Times ilustrează recent că modul în care companiile legate de inteligența artificială colectează date nu a fost la îndemână și au creat o bătaie de cap în ceea ce privește datele adevărate și ce unghi etic a fost folosit în crearea sistemului legat de inteligența artificială. .

Tacticile îndoielnice ale OpenAI

Cu toate acestea, la apogeul său, New York Times a subliniat rezultatele mai mari ale Open AI prezentate cu Whisper. Acest model de transcriere audio-text este avansat ca o completare a procesorului de limbaj al Open AI, tehnologia LP-4. Într-adevăr, mașina cu conducere autonomă a OpenAI nu este prin colectarea de informații, care este o problemă provocatoare pe care compania o contactează; mai degrabă, acesta din urmă intră în joc în astfel de condiții.

Deși popularitatea inițială a actelor de colectare a datelor a fost legată de considerentele privind drepturile de autor privind utilizarea loială, acestea din urmă au devenit și o bază legală pentru aceste acte. După cum a spus Brockman, unul dintre membrii fondatori și CEO-ul OpenAI a furnizat câteva informații necesare pentru transcriere. Totuși, el continuă spunând că și istoricul a contribuit la transcriere.

Cu toate acestea, Google Corporation este în centrul atenției chiar și pentru aceste mici probleme pentru întreprinderi mai mari ca aceasta, adică o funcție de colectare a datelor precum OpenAI este o organizație mai mică și se implică în proiecte care sunt orientate către gigantul industriei, iar utilizatorul a fost doar avertizat. și nu a spus cine trebuie să fie învinovățit de YouTube. 

Pe lângă această abordare, Facebook a acoperit și baza de conformitate a TOS și a interzis acțiunile neautorizate, în special așa-numita data scraping. În cazul lui John Conly (purtătorul de cuvânt al YouTube), acesta a răspuns la întrebarea dacă modelele au fost folosite pentru instruirea AI bazată pe conținut după colectarea datelor de la creatorii de conținut.

Dimpotrivă. La fel ca și mașinile de antrenament de care parte Meta este o problemă actuală care duce la infezabilitatea acesteia. Grupul AI din firmă, care a avut succes cu rivalitatea OpenAI, a considerat că ambele echipe au folosit toate mijloacele disponibile pentru a lucra la un rezultat mai bun pentru companiile lor, inclusiv gândirea originală, fără a acorda atenție niciunei probleme în favoarea părții respinse. 

Meta pare să fi pregătit tipuri de întrebări la care și-au propus să aibă răspunsul în ce lucru delegat se va face, cine se va ocupa de achiziționarea cărților de la care edituri specializate în domenii specifice. Deși experiența utilizatorului rețelei este extrem de uimitoare, politica guvernamentală consacrată a dobândit inițiativa de a se amesteca în confidențialitatea individuală, lucru care a fost evidențiat în 2018 de afacerea Cambridge Analytica.

Peisajul mai larg de instruire AI se confruntă cu o dilemă presantă: pe de o parte, întrebarea privind deficitul de date a devenit mai acută în ultimii doi ani, pe de altă parte. În timp ce legătura dintre cele două rămâne, cercetătorii insistă întotdeauna să aibă date adecvate pentru o acuratețe sporită și creșterea performanței. 

De asemenea, predicția Wall Street Journal trezește entuziasm, care proiectează înălțimi dincolo de toate obiectivele până la începutul anului 2020 și traversează sfârșitul anului cu cel mai înalt punct de pe piață. Această metodă se bazează pe doi factori: bazarea pe modele, care pot fi sintetice pentru a declara matricea externă, și un curriculum al procesului de luare a deciziilor, în care modelele învață din deciziile lor. Nu vă așteptați să producă rezultate, ci permiteți-le să fie observabile.

Implicații juridice și etice

Absența regulii de piraterie ar putea aduce probleme, deoarece nimic nu poate permite utilizatorilor să acceseze articolele protejate prin drepturi de autor, iar înțelegerea misiunii ar putea apărea în jurul legii, eticii etc. Devin datele o proprietate intangibilă și baza pentru cunoașterea și declararea a ceea ce este al tău și ce anume nu este, în care date și utilizator sunt cunoscute a fi sursa afacerii atunci când utilizarea acestor date este nejustificată? Acest risc ar fi ca programul echipei de cercetare și dezvoltare să se concentreze pe revizuirea lor și pe elaborarea răspunsurilor. 

Relația în scopul campaniilor de acțiune de grup ar presupune că confidențialitatea și utilizarea datelor sunt răspunsuri pe care organizația nu le cunoaște suficient pentru a-și face operațiunile legitime. Într-adevăr, provocările (cum ar fi problemele etice privind procesul de extragere a datelor utilizate pentru cercetarea și dezvoltarea IA) devin complicate deoarece trebuie să luăm în considerare restricțiile de reglementare și confidențialitatea datelor (deoarece natura datelor este în context a modului în care datele sunt prelucrate și utilizate).

Cea mai dură competiție AI a viitorului constă în identificarea celor mai bune date pentru instruirea sistemelor AI și, cu atât mai mult, este vorba despre dacă astfel de date vor fi supuse unor cadre de reglementare etice sau legale comune. Totul în jurul inteligenței artificiale, în însăși natura sa, subliniază și extinde concepte precum inovația și implementarea prin intermediul filtrelor setului de date pentru corporații. 

A fi o inteligență artificială tehnologică nu este niciodată statică, așa că principala problemă va fi întotdeauna utilizarea datelor și va continua să fie una dintre prioritățile membrilor comunității care se formează prin utilizarea inteligenței artificiale, cea mai bună.

Povestea originală de la: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb