Lai izveidotu un atbalstītu mūsdienīgus AI modeļus, ir nepieciešami ievērojami ieguldījumi, kas var pārsniegt simtiem miljonu dolāru. Aplēses liecina, ka šīs izmaksas tuvākajā nākotnē var sasniegt miljardu dolāru. 

Šie izdevumi galvenokārt ir saistīti ar skaitļošanas jaudu, kurā tiek izmantoti tādi uzņēmumi kā Nvidia GPU, kas katrs var maksāt aptuveni 30 000 USD, un, lai tie būtu efektīvi, var būt nepieciešami vairāki tūkstoši vairāk. Pētnieki ir norādījuši, ka šādu modeļu izstrādē izmantotās apmācības datu kopas kvalitāte un kvantitāte ir ļoti svarīga. 

Nozares vadītāji atklāj satriecošās AI izstrādes izmaksas

Pēc Džeimsa Betkera no OpenAI domām, modeļa veiktspēja ir atkarīga no apmācības datiem, nevis no modeļa dizaina vai arhitektūras. Viņa apgalvojums ir tāds, ka modeļi, kas apmācīti uz lielām datu kopām, sasniegs tādus pašus rezultātus. Tāpēc dati ir AI tehnoloģijas attīstības atslēga. 

Dario Amodei, AI uzņēmuma Anthropic AI izpilddirektors, dalījās savās atziņās par šo izaicinājumu finansiālajiem aspektiem podkāstā In Good Company. Viņš norādīja, ka tiek lēsts, ka pašreizējo modeļu, piemēram, ChatGPT-4, apmācība izmaksās aptuveni 100 miljonus ASV dolāru, un turpmāko modeļu apmācībai tuvāko gadu laikā var būt nepieciešami 10-100 miljardi ASV dolāru.

Ģeneratīvie AI modeļi un tie, ko izveidojuši lieli uzņēmumi, būtībā ir statistikas modeļi. Tāpēc viņi izmanto daudz piemēru, lai prognozētu visticamākos rezultātus. Kails Lo no Allena AI institūta (AI2) saka, ka veiktspējas pieaugumu galvenokārt var attiecināt uz datiem, it īpaši, ja apmācības vide ir konsekventa. 

Datu centralizācija rada bažas par ētiku un pieejamību

Augstās izmaksas par labas kvalitātes datu iegūšanu padara AI izstrādi par dažiem lieliem uzņēmumiem attīstītajā pasaulē. Šis resursu apkopojums rada arī bažas par AI tehnoloģijas pieejamību un ļaunprātīgas izmantošanas iespējamību. 

OpenAI vien ir iztērējis simtiem miljonu dolāru datu licencēm, un Meta ir apsvērusi iespēju iegādāties izdevējus, lai piekļūtu datiem. Paredzams, ka AI apmācības datu tirgus paplašināsies, un datu brokeri, visticamāk, gūs labumu no šīs iespējas. 

Problēmas rada apšaubāma datu iegūšanas prakse. Saskaņā ar ziņojumiem daudzi uzņēmumi ir tvēruši lielus satura apjomus bez šāda satura īpašnieku atļaujas, un daži uzņēmumi izmanto datus no dažādām platformām un neatmaksā lietotājiem. Kā jau iepriekš ziņojām, OpenAI izmantoja savu Whisper audio transkripcijas modeli, lai pārrakstītu vairāk nekā miljonu stundu YouTube videoklipu, lai precizētu GPT-4.

Organizācijas strādā, lai izveidotu atvērtās piekļuves AI apmācības datu kopas

Tā kā datu iegūšanas sacensības rada dažas problēmas, ir vajadzīgi daži neatkarīgu pušu centieni, lai apmācības datu kopas būtu atklāti pieejamas. Dažas organizācijas, piemēram, EleutherAI un Hugging Face, veido lielas datu kopas, kas ir pieejamas sabiedrībai AI izstrādei.

The Wall Street Journal nesen uzsvēra divas potenciālās stratēģijas datu iegūšanas problēmu risināšanai: ģeneratīvo datu ģenerēšanu un mācību programmas apguvi. Sintētiskie dati tiek veidoti, izmantojot pašus AI modeļus, savukārt mācību programmas mēģina nodrošināt modeļus ar augstas kvalitātes datiem strukturētā veidā, lai tie varētu izveidot savienojumus pat ar mazāku datu apjomu. Tomēr abas metodes joprojām ir izstrādes stadijā, un to efektivitāte vēl nav pārbaudīta.