16. decembrī Kazahstāna gatavojas spert milzīgu tehnoloģisku soli uz priekšu, izlaižot savu pirmo lielo valodas modeli (LLM) ar nosaukumu KazLLM. Šī atklāšana sakrīt ar valsts 33. neatkarības gadadienu.

Lasiet arī: Ģeneratīvais AI atdzīvina videospēļu NPC

Viedo sistēmu un mākslīgā intelekta institūts (ISSAI) par to paziņoja savā brīfingā Nazarbajeva universitātē 18. jūlijā. Projekta datu vākšana sākās martā, un modelis tiek apmācīts, izmantojot mākoņdatošanas platformu, kas tiek piegādāta ar NVIDIA H100 mezgliem.

Studenti un eksperti apvieno spēkus AI attīstībā

KazLLM projektā sadarbojas Nazarbajeva universitātes studenti, Astanas IT universitātes studenti, Bolashak stipendijas absolventi un vietējie dalībnieki. Šīs iniciatīvas galvenais mērķis ir izveidot KazLLM un radīt darbaspēku, kas spēj ražot viedus AI rīkus un lietojumprogrammas.

ISSAI dibinātājs un vadītājs profesors Atakans Varols vēlas pārvarēt tehnoloģisko plaisu no citām valstīm. Viņš teica, ka pēc tās pabeigšanas Kazahstāna tehnoloģiju ziņā atpaliks tikai par 18 mēnešiem no vadošajām valstīm. Paredzams, ka balss funkciju integrēšana saīsinās šo periodu līdz 12 mēnešiem, savukārt papildu valodas redzes modeļa uzlabojumi var izvirzīt Kazahstānu mākslīgā intelekta attīstības priekšgalā.

Wikipedia raksti, ziņu izlaidumi, valdības vietnes un atvērtās datu kopas, piemēram, Common Crawl, ir daži no avotiem, no kuriem tiek iegūti projekta dati. Jau vairāk nekā piecus gadus ISSAI ir veidojis dažādas dabiskās valodas apstrādes datu kopas, kas īpaši paredzētas kazahu valodai. Šī plašā datu kopu kolekcija ir ļoti svarīga, jo tā palīdz efektīvi un precīzi apmācīt KazLLM.

Kazahstāna cer risināt valsts un informācijas drošības jautājumus, izmantojot AI inovācijas

KazLLM projektam ir ietekme uz nacionālo un informācijas drošību. Kazahstāna cer samazināt savu atkarību no ārvalstu tehnoloģijām, kas var izraisīt datu pārkāpumus un izkropļotas informācijas prezentāciju, izveidojot vietēji izstrādātu valodas modeli.

Direktora vietniece ārējo attiecību jautājumos un vadošā datu zinātniece Madina Abdrakhmanova uzsvēra modeļa plašo apmācību korpusu. "Tas sastāvēs no vismaz 100 miljardiem žetonu kazahu, krievu, angļu un turku valodās, un katra valoda tiks attēlota ar 25 miljardiem žetonu," sacīja direktors.

Pašlaik projektā ir vairāk nekā 30 miljardi marķieru, tostarp 26 miljardi marķieru, kas ražoti, izmantojot Tilmash tulkotāju, kas pārvērš angļu valodas datus kazahu valodā. Šī tulkošanas iespēja nodrošina, ka modelis var ģenerēt saskaņotu un precīzu tekstu kazahu valodā.

Lasiet arī: OpenAI kļūst par vienkāršotu, izlaiž lētāku AI modeli ar nosaukumu GPT-4o mini

ISSAI plāno izveidot lietotājam draudzīgu KazLLM saskarni, piemēram, OpenAI modeļu saskarni, lai padarītu to pieejamāku. Pēc pabeigšanas tas varēs atbalstīt modeļu mijiedarbību, pastiprināt mācīšanos no cilvēku atgriezeniskās saites un pielāgoties dažādām situācijām, lai palielinātu veiktspēju. KazLLM tiks piedāvāts kā vispārēja abonēšanas pakotne un kā API pieredzējušiem lietotājiem.