Construirea și susținerea modelelor moderne de IA necesită investiții semnificative, care pot depăși sute de milioane de dolari. Estimările indică faptul că aceste costuri ar putea atinge un miliard de dolari în viitorul apropiat. 

Această cheltuială se datorează în principal puterii de calcul în care sunt utilizate entități precum GPU-urile Nvidia, care poate costa aproximativ 30.000 USD fiecare și poate necesita mii de mai multe pentru a fi eficiente. Cercetătorii au afirmat că calitatea și cantitatea setului de date de antrenament utilizate în dezvoltarea unor astfel de modele sunt foarte importante. 

Liderii din industrie dezvăluie costuri uimitoare ale dezvoltării AI

Potrivit lui James Betker de la OpenAI, performanța unui model este o funcție mai degrabă a datelor de antrenament decât a designului sau arhitecturii modelului. Afirmația lui este că modelele antrenate pe seturi de date mari vor ajunge la aceleași rezultate. Prin urmare, datele sunt cheia progresului tehnologiei AI. 

Dario Amodei, CEO al firmei de inteligență artificială Anthropic AI, și-a împărtășit cunoștințele despre aspectele financiare ale acestor provocări în podcastul In Good Company. El a afirmat că pregătirea modelelor actuale, cum ar fi ChatGPT-4, este estimată să coste în jur de 100 de milioane de dolari, iar pregătirea pentru modelele viitoare ar putea necesita 10-100 de miliarde de dolari în următorii câțiva ani.

Modelele generative de inteligență artificială și cele create de firme mari sunt, în esență, modele statistice. Prin urmare, folosesc o mulțime de exemple pentru a prezice cele mai probabile rezultate. Kyle Lo de la Institutul Allen pentru AI (AI2) spune că câștigul în performanță poate fi atribuit în mare parte datelor, mai ales atunci când mediul de antrenament este consistent. 

Centralizarea datelor ridică probleme etice și de accesibilitate

Costul ridicat al obținerii de date de bună calitate face ca dezvoltarea inteligenței artificiale să fie rezervată câtorva companii mari din lumea dezvoltată. Această agregare a resurselor este, de asemenea, o sursă de îngrijorare în ceea ce privește disponibilitatea tehnologiei AI și posibilitatea utilizării greșite. 

Numai OpenAI a cheltuit sute de milioane de dolari pe licențe de date, iar Meta s-a gândit să cumpere editori pentru accesul la date. Se așteaptă ca piața datelor de formare AI să se extindă, iar brokerii de date vor beneficia probabil de această oportunitate. 

Problemele apar din practicile îndoielnice de achiziție de date. Potrivit rapoartelor, multe companii au captat volume mari de conținut fără autorizația proprietarilor unui astfel de conținut, iar unele companii valorifică date de pe diferite platforme și nu remunerați utilizatorii. După cum am raportat anterior, OpenAI a folosit modelul său de transcriere audio Whisper pentru a transcrie mai mult de un milion de ore de videoclipuri YouTube pentru a regla fin GPT-4.

Organizațiile lucrează pentru a crea seturi de date de instruire AI cu acces deschis

Întrucât cursa de achiziție de date prezintă unele probleme, sunt necesare unele eforturi din partea părților independente pentru a face disponibile în mod deschis seturile de date de antrenament. Unele organizații, cum ar fi EleutherAI și Hugging Face, creează seturi de date mari care sunt disponibile publicului pentru dezvoltarea AI.

Wall Street Journal a evidențiat recent două strategii potențiale pentru a rezolva problemele de achiziție de date: generarea de date generative și învățarea curriculumului. Datele sintetice sunt create folosind modelele AI în sine, în timp ce învățarea curriculară încearcă să ofere modelelor date de înaltă calitate într-un mod structurat, astfel încât să poată face conexiuni chiar și cu mai puține date. Cu toate acestea, ambele metode sunt încă în stadii de dezvoltare, iar eficacitatea lor nu a fost încă testată.