Il 16 dicembre, il Kazakistan farà un enorme passo avanti dal punto di vista tecnologico lanciando il suo primo modello linguistico di grandi dimensioni (LLM) chiamato KazLLM. Questo lancio coincide con il 33° anniversario dell’indipendenza del Paese.

Leggi anche: L'intelligenza artificiale generativa dà vita agli NPC dei videogiochi

Lo ha annunciato l'Istituto di sistemi intelligenti e intelligenza artificiale (ISSAI) durante il briefing presso l'Università di Nazarbayev il 18 luglio. La raccolta dei dati del progetto è iniziata a marzo e il modello viene addestrato utilizzando una piattaforma di cloud computing fornita con nodi NVIDIA H100.

Studenti ed esperti uniscono le forze nello sviluppo dell’IA

Studenti dell'Università di Nazarbayev, studenti dell'Università IT di Astana, laureati con borsa di studio Bolashak e partecipanti locali stanno collaborando al progetto KazLLM. Lo scopo principale di questa iniziativa è creare KazLLM e creare una forza lavoro in grado di produrre strumenti e applicazioni di intelligenza artificiale intelligenti.

Il divario tecnologico con altri paesi è ciò che il fondatore e direttore dell'ISSAI, il professor Atakan Varol, vuole colmare attraverso questo progetto. Ha detto che dopo il suo completamento, il Kazakistan sarebbe rimasto indietro di soli 18 mesi in termini di tecnologia rispetto alle nazioni leader. Si prevede che l’integrazione delle funzionalità vocali ridurrà questo periodo a 12 mesi, mentre ulteriori progressi nel modello di visione linguistica potrebbero mettere il Kazakistan in prima linea nello sviluppo dell’intelligenza artificiale.

Articoli di Wikipedia, organi di stampa, siti web governativi e set di dati aperti come Common Crawl sono alcune delle fonti da cui si ottengono i dati per il progetto. Da oltre cinque anni, ISSAI crea vari set di dati per l'elaborazione del linguaggio naturale progettati specificamente per la lingua kazaka. Questa vasta raccolta di set di dati è molto importante poiché aiuta ad addestrare KazLLM in modo efficace e accurato.

Il Kazakistan spera di affrontare la sicurezza nazionale e informatica con l’innovazione dell’intelligenza artificiale

Il progetto KazLLM ha implicazioni a livello nazionale e di sicurezza informatica. Il Kazakistan spera di ridurre al minimo la propria dipendenza dalla tecnologia straniera che potrebbe provocare violazioni dei dati e la presentazione di informazioni distorte creando un modello linguistico realizzato a livello locale.

Il vicedirettore per le relazioni esterne e capo scienziato dei dati, Madina Abdrakhmanova, ha evidenziato l'ampio corpus formativo del modello. "Sarà composto da un minimo di 100 miliardi di token nelle lingue kazaka, russa, inglese e turca, con ciascuna lingua rappresentata da 25 miliardi di token", ha affermato il direttore.

Attualmente, il progetto ha più di 30 miliardi di token, inclusi 26 miliardi di token prodotti tramite il traduttore Tilmash che converte i dati dall'inglese al kazako. Questa capacità di traduzione garantisce che il modello possa generare testo coerente e accurato nella lingua kazaka.

Leggi anche: OpenAI diventa lite, rilascia un modello AI più economico chiamato GPT-4o mini

ISSAI intende creare un'interfaccia user-friendly per KazLLM, come quelle dei modelli OpenAI, per renderlo più accessibile. Una volta completato, sarà in grado di supportare l'interazione del modello, l'apprendimento di rinforzo dal feedback umano e la messa a punto di situazioni diverse per massimizzare le prestazioni. KazLLM sarà offerto come pacchetto di abbonamento generale e come API per utenti esperti.