Colaborarea Harvard-Google pentru a Lansa un Million de Cărți pentru a Antrena Generația Următoare de AI
Universitatea Harvard, în colaborare cu Google, a dezvăluit un set de date de un milion de cărți din domeniul public pentru a avansa antrenarea AI.
Această colecție diversificată acoperă multiple genuri, limbi și autori iconici precum Dickens, Dante și Shakespeare, ale căror lucrări au intrat în domeniul public datorită vârstei lor.
Această inițiativă abordează costurile ridicate asociate de obicei cu datele de antrenare AI, făcându-le o resursă valoroasă pentru stimularea inovației în dezvoltarea AI.
Harvard lansând un set gratuit de date pentru antrenarea AI cu o mare colecție de cărți din domeniul public este un lucru util pentru startup-uri. Bravo! pic.twitter.com/01W9FmjuDV
— Jed White 💥♻️ (@jedwhite) 12 decembrie 2024
Giganții Tehnologici au Susținut Inițiativa
Inițiativa de Date Instituționale a Harvardului (IDI) conduce un efort revoluționar de a oferi un set cuprinzător de date provenit din extinsul proiect de scanare a cărților Google, Google Books.
Această colecție cuprinde o gamă largă de texte, de la manuale de matematică cehe la dicționare pocket galeze, oferind o bogăție de cunoștințe pentru antrenarea AI.
Inițial anunțat în martie, IDI a anunțat planurile sale de a crea un "canal de încredere pentru date legale pentru AI", cu puțin follow-up până la lansarea sa oficială de joi.
Finanțată de giganții tehnologici Microsoft și OpenAI, această inițiativă este concepută pentru a face date de înaltă calitate, accesibile publicului, disponibile nu doar marilor corporații, ci și laboratoarelor de cercetare și startup-urilor AI care caută să antreneze modele lingvistice mari.
De către @pradeepviswav - Biblioteca Școlii de Drept Harvard a lansat Inițiativa de Date Instituționale (IDI) cu sprijinul Microsoft și OpenAI pentru a publica colecțiile sale ca date pentru diverse scopuri. #Microsoft #OpenAI #Google #AI https://t.co/MuYpzbTzoQ
— NeowinFeed (@NeowinFeed) 12 decembrie 2024
Directorul Executiv al IDI, Greg Leppert, a subliniat că setul de date își propune să echilibreze terenul de joc, reducând barierele pentru companiile mai mici care se confruntă cu costuri prohibitive de antrenare.
De asemenea, el a asigurat că setul de date trece printr-o revizuire riguroasă pentru a asigura calitatea și acuratețea.
Mai Multe Resurse Sunt Încă Necesare
Leppert, comparând potențialul setului de date Harvard cu cel al sistemului de operare Linux cu sursă deschisă, notează că succesul său depinde de o combinație de resurse, expertiză și ceea ce el numește un "strop de magie" din partea corporațiilor pe care inițiativa caută să le conteste.
Setul de date, care include un milion de cărți scanate prin programul Google Book, este văzut de unii ca un capsule digitală din primele zile ale acum-ambitiosului proiect Google de a scana fiecare carte—un obiectiv care odată părea mai ciudat decât distopic.
În timp ce Leppert este optimist cu privire la potențialul setului de date, imaginându-l ca o resursă valoroasă atât pentru startup-uri, cât și pentru mari corporații, critici ca Fudzilla îl văd ca pe un mod subtil prin care marii jucători își mențin un avantaj în cursa AI generativ.
Lansarea ChatGPT în noiembrie 2022 a stârnit o impuls global pentru a dezvolta modele AI similare, creând o cerere în creștere pentru date pentru a rafina aceste sisteme.
Cu toate acestea, această foame de date a ridicat îngrijorări legale, cu mari edituri precum Wall Street Journal și New York Times dând în judecată OpenAI și Perplexity pentru utilizarea datelor lor fără consimțământ.
Creatorul ChatGPT, OpenAI, este dat în judecată pentru că ar fi adunat în secret 300 de miliarde de cuvinte de pe internet, inclusiv cărți, articole, site-uri web, postări și informații personale obținute fără consimțământ, raportează Bloomberg. pic.twitter.com/HwGmGEFfWZ
— KanekoaTheGreat (@KanekoaTheGreat) 3 iulie 2023
Pe măsură ce dezvoltarea AI accelerează, echilibrul între accesul deschis și drepturile de proprietate intelectuală rămâne o problemă crucială și controversată.