Pe 16 decembrie, Kazahstanul urmează să facă un pas tehnologic uriaș înainte prin lansarea primului său model de limbă mare (LLM) numit KazLLM. Această lansare coincide cu cea de-a 33-a aniversare a independenței țării.

Citește și: Generative AI dă viață NPC-urilor jocurilor video

Institutul de Sisteme Inteligente și Inteligență Artificială (ISSAI) a anunțat acest lucru în timpul briefing-ului lor de la Universitatea Nazarbayev pe 18 iulie. Colectarea de date a proiectului a început în martie, iar modelul este antrenat folosind o platformă de cloud computing furnizată cu noduri NVIDIA H100.

Studenții și experții își unesc forțele în dezvoltarea AI

Studenții de la Universitatea Nazarbayev, studenții de la Astana IT, absolvenții de burse Bolashak și participanții locali colaborează la proiectul KazLLM. Scopul principal al acestei inițiative este de a crea KazLLM și de a crea o forță de muncă capabilă să producă instrumente și aplicații inteligente AI.

Decalajul tehnologic cu alte țări este ceea ce fondatorul și directorul ISSAI, profesorul Atakan Varol, vrea să compenseze prin acest proiect. El a spus că, după finalizarea sa, Kazahstanul va fi în urmă cu doar 18 luni în ceea ce privește tehnologia față de țările lider. Se anticipează că integrarea funcțiilor vocale va scurta această perioadă la 12 luni, în timp ce progresele suplimentare ale modelului de viziune lingvistică ar putea plasa Kazahstanul în fruntea dezvoltării AI.

Articole Wikipedia, știri, site-uri web guvernamentale și seturi de date deschise, cum ar fi Common Crawl, sunt câteva dintre sursele de unde sunt obținute datele pentru proiect. De peste cinci ani, ISSAI a creat diverse seturi de date de procesare a limbajului natural concepute special pentru limba kazahă. Această colecție extinsă de seturi de date este foarte importantă, deoarece ajută la instruirea KazLLM în mod eficient și precis.

Kazahstanul speră să abordeze securitatea națională și a informațiilor cu inovația AI

Proiectul KazLLM are implicații naționale și de securitate a informațiilor. Kazahstanul speră să-și minimizeze dependența de tehnologia străină, care poate duce la încălcări ale datelor și la prezentarea de informații distorsionate prin crearea unui model de limbă realizat la nivel local.

Director adjunct pentru Relații Externe și cercetător principal de date, Madina Abdrakhmanova, a evidențiat corpul larg de formare al modelului. „Va consta dintr-un minim de 100 de miliarde de jetoane în kazah, rusă, engleză și turcă, fiecare limbă fiind reprezentată de 25 de miliarde de jetoane”, a spus directorul.

În prezent, proiectul are peste 30 de miliarde de jetoane, inclusiv 26 de miliarde de jetoane produse prin translatorul Tilmash care convertește datele din engleză în kazah. Această capacitate de traducere asigură că modelul poate genera text coerent și precis în limba kazahă.

Citește și: OpenAI devine lite, lansează un model AI mai ieftin numit GPT-4o mini

ISSAI intenționează să creeze o interfață ușor de utilizat pentru KazLLM, precum cele ale modelelor OpenAI, pentru a o face mai accesibilă. La finalizare, acesta va fi capabil să susțină interacțiunea modelului, învățarea de consolidare din feedbackul uman și reglarea pentru diferite situații pentru a maximiza performanța. KazLLM va fi oferit ca pachet de abonament general și ca API pentru utilizatorii experimentați.