Le 16 décembre, le Kazakhstan s'apprête à faire un grand pas en avant technologique en lançant son premier grand modèle linguistique (LLM) appelé KazLLM. Ce lancement coïncide avec le 33e anniversaire de l’indépendance du pays.
A lire aussi : L'IA générative donne vie aux PNJ de jeux vidéo
L'Institut des systèmes intelligents et de l'intelligence artificielle (ISSAI) l'a annoncé lors de sa conférence d'information à l'Université de Nazarbaïev le 18 juillet. La collecte de données du projet a débuté en mars et le modèle est en cours de formation à l'aide d'une plate-forme de cloud computing fournie avec des nœuds NVIDIA H100.
Étudiants et experts unissent leurs forces pour développer l’IA
Les étudiants de l'Université Nazarbaïev, les étudiants de l'Université informatique d'Astana, les boursiers Bolashak et les participants locaux collaborent au projet KazLLM. L'objectif principal de cette initiative est de créer KazLLM et de créer une main-d'œuvre capable de produire des outils et des applications d'IA intelligents.
Le fossé technologique avec les autres pays est ce que le fondateur et directeur de l'ISSAI, le professeur Atakan Varol, souhaite combler à travers ce projet. Il a déclaré qu'après son achèvement, le Kazakhstan n'aurait que 18 mois de retard en termes de technologie par rapport aux pays leaders. L'intégration des fonctionnalités vocales devrait réduire cette période à 12 mois, tandis que des avancées supplémentaires dans le modèle de vision linguistique pourraient placer le Kazakhstan à l'avant-garde du développement de l'IA.
Les articles Wikipédia, les médias, les sites Web gouvernementaux et les ensembles de données ouverts comme Common Crawl sont quelques-unes des sources permettant d'obtenir les données du projet. Depuis plus de cinq ans maintenant, l'ISSAI crée divers ensembles de données sur le traitement du langage naturel spécifiquement conçus pour la langue kazakhe. Cette vaste collection d'ensembles de données est très importante car elle contribue à former KazLLM de manière efficace et précise.
Le Kazakhstan espère aborder la sécurité nationale et celle de l’information grâce à l’innovation en matière d’IA
Le projet KazLLM a des implications nationales et en matière de sécurité de l'information. Le Kazakhstan espère minimiser sa dépendance à l'égard des technologies étrangères, qui pourraient entraîner des violations de données et la présentation d'informations déformées, en créant un modèle linguistique élaboré localement.
La directrice adjointe des relations extérieures et principale data scientist, Madina Abdrakhmanova, a souligné le vaste corpus de formation du modèle. "Il comprendra un minimum de 100 milliards de jetons en langues kazakhe, russe, anglaise et turque, chaque langue étant représentée par 25 milliards de jetons", a déclaré le directeur.
Actuellement, le projet compte plus de 30 milliards de jetons, dont 26 milliards produits via le traducteur Tilmash qui convertit l'anglais en données kazakhes. Cette capacité de traduction garantit qu'un texte cohérent et précis peut être généré dans la langue kazakhe par le modèle.
A lire aussi : OpenAI devient plus léger et lance un modèle d'IA moins cher appelé GPT-4o mini
L'ISSAI a l'intention de créer une interface conviviale pour KazLLM, à l'instar de celles des modèles OpenAI, afin de le rendre plus accessible. Une fois terminé, il sera en mesure de prendre en charge l'interaction du modèle, l'apprentissage par renforcement à partir des commentaires humains et l'adaptation à différentes situations afin de maximiser les performances. KazLLM sera proposé sous forme d'abonnement général et sous forme d'API pour les utilisateurs expérimentés.