El 16 de diciembre, Kazajstán dará un gran paso tecnológico al lanzar su primer modelo de lenguaje grande (LLM) llamado KazLLM. Este lanzamiento coincide con el 33º aniversario de la independencia del país.

Lea también: La IA generativa da vida a los NPC de los videojuegos

El Instituto de Sistemas Inteligentes e Inteligencia Artificial (ISSAI) lo anunció durante su sesión informativa en la Universidad de Nazarbayev el 18 de julio. La recopilación de datos del proyecto comenzó en marzo y el modelo se está entrenando utilizando una plataforma de computación en la nube suministrada con nodos NVIDIA H100.

Estudiantes y expertos unen fuerzas en el desarrollo de la IA

En el proyecto KazLLM colaboran estudiantes de la Universidad de Nazarbayev, estudiantes de la Universidad de TI de Astana, graduados de la beca Bolashak y participantes locales. El principal objetivo de esta iniciativa es crear KazLLM y crear una fuerza laboral capaz de producir herramientas y aplicaciones inteligentes de IA.

La brecha tecnológica con otros países es lo que el fundador y director de la ISSAI, el profesor Atakan Varol, quiere cerrar a través de este proyecto. Dijo que después de su finalización, Kazajstán estaría sólo 18 meses por detrás en términos de tecnología con respecto a las naciones líderes. Se prevé que la integración de funciones de voz acortará este lapso a 12 meses, mientras que avances adicionales en el modelo de visión del lenguaje pueden colocar a Kazajstán a la vanguardia del desarrollo de la IA.

Artículos de Wikipedia, medios de comunicación, sitios web gubernamentales y conjuntos de datos abiertos como Common Crawl son algunas de las fuentes de donde se obtienen datos para el proyecto. Desde hace más de cinco años, ISSAI ha estado creando varios conjuntos de datos de procesamiento de lenguaje natural diseñados específicamente para el idioma kazajo. Esta extensa colección de conjuntos de datos es muy importante ya que ayudan a entrenar KazLLM de manera efectiva y precisa.

Kazajstán espera abordar la seguridad nacional y de la información con innovación en IA

El proyecto KazLLM tiene implicaciones nacionales y de seguridad de la información. Kazajstán espera minimizar su dependencia de la tecnología extranjera que puede resultar en violaciones de datos y la presentación de información distorsionada mediante la creación de un modelo de lenguaje de fabricación local.

Madina Abdrakhmanova, directora adjunta de Relaciones Exteriores y científica principal de datos, destacó el amplio corpus de formación del modelo. "Constará de un mínimo de 100 mil millones de tokens en los idiomas kazajo, ruso, inglés y turco, y cada idioma estará representado por 25 mil millones de tokens", dijo el director.

Actualmente, el proyecto cuenta con más de 30 mil millones de tokens, incluidos 26 mil millones de tokens producidos a través del traductor Tilmash que convierte datos del inglés al kazajo. Esta capacidad de traducción garantiza que el modelo pueda generar texto coherente y preciso en el idioma kazajo.

Lea también: OpenAI se vuelve liviano y lanza un modelo de IA más económico llamado GPT-4o mini

ISSAI tiene la intención de crear una interfaz fácil de usar para KazLLM, como las de los modelos OpenAI, para hacerlo más accesible. Una vez finalizado, podrá admitir la interacción del modelo, reforzar el aprendizaje a partir de la retroalimentación humana y ajustar diferentes situaciones para maximizar el rendimiento. KazLLM se ofrecerá como un paquete de suscripción general y como API para usuarios experimentados.