Em 16 de dezembro, o Cazaquistão dará um enorme passo tecnológico ao lançar seu primeiro grande modelo de linguagem (LLM) chamado KazLLM. Este lançamento coincide com o 33º aniversário da independência do país.

Leia também: IA generativa dá vida aos NPCs de videogame

O Instituto de Sistemas Inteligentes e Inteligência Artificial (ISSAI) anunciou isso durante seu briefing na Universidade Nazarbayev em 18 de julho. A coleta de dados do projeto começou em março e o modelo está sendo treinado em uma plataforma de computação em nuvem fornecida com nós NVIDIA H100.

Estudantes e especialistas unem forças no desenvolvimento de IA

Estudantes da Universidade Nazarbayev, estudantes da Astana IT University, bolsistas Bolashak e participantes locais estão colaborando no projeto KazLLM. O principal objetivo desta iniciativa é criar o KazLLM e criar uma força de trabalho capaz de produzir ferramentas e aplicações inteligentes de IA.

A lacuna tecnológica com outros países é o que o fundador e professor-chefe da ISSAI, Atakan Varol, pretende colmatar através deste projeto. Ele disse que após a sua conclusão, o Cazaquistão ficaria apenas 18 meses atrás em termos de tecnologia com as nações líderes. Prevê-se que a integração de recursos de voz reduza esse período para 12 meses, enquanto avanços adicionais no modelo de visão linguística podem colocar o Cazaquistão na vanguarda do desenvolvimento da IA.

Artigos da Wikipedia, meios de comunicação, sites governamentais e conjuntos de dados abertos como Common Crawl são algumas das fontes onde os dados do projeto são obtidos. Há mais de cinco anos, a ISSAI cria vários conjuntos de dados de processamento de linguagem natural projetados especificamente para a língua cazaque. Esta extensa coleção de conjuntos de dados é muito importante porque ajuda no treinamento do KazLLM de forma eficaz e precisa.

O Cazaquistão espera enfrentar a segurança nacional e da informação com inovação em IA

O projeto KazLLM tem implicações nacionais e de segurança da informação. O Cazaquistão espera minimizar a sua dependência de tecnologia estrangeira, que pode resultar em violações de dados e na apresentação de informações distorcidas, através da criação de um modelo de linguagem fabricado localmente.

A vice-diretora de Relações Externas e cientista-chefe de dados, Madina Abdrakhmanova, destacou o amplo corpus de treinamento do modelo. “Consistirá em um mínimo de 100 bilhões de tokens nos idiomas cazaque, russo, inglês e turco, sendo cada idioma representado por 25 bilhões de tokens”, disse o diretor.

Atualmente, o projeto tem mais de 30 bilhões de tokens, incluindo 26 bilhões de tokens produzidos através do tradutor Tilmash que converte dados do inglês para o cazaque. Esta capacidade de tradução garante que o modelo possa gerar texto coerente e preciso no idioma cazaque.

Leia também: OpenAI torna-se leve, lança modelo de IA mais barato chamado GPT-4o mini

A ISSAI pretende criar uma interface amigável para o KazLLM, como as dos modelos OpenAI, para torná-lo mais acessível. Após a conclusão, será capaz de suportar a interação do modelo, reforçar a aprendizagem a partir do feedback humano e ajustar-se a diferentes situações para maximizar o desempenho. KazLLM será oferecido como um pacote de assinatura geral e como uma API para usuários experientes.