16 грудня Казахстан збирається зробити величезний технологічний крок вперед, запустивши свою першу велику мовну модель (LLM) під назвою KazLLM. Цей запуск збігається з 33-ю річницею незалежності країни.

Читайте також: Generative AI повертає NPC у відеоігри до життя

Про це на брифінгу в Назарбаєв Університеті 18 липня повідомив Інститут інтелектуальних систем і штучного інтелекту (ISSAI). Збір даних проекту розпочався в березні, і модель тренується за допомогою платформи хмарних обчислень, що постачається з вузлами NVIDIA H100.

Студенти та експерти об’єднують зусилля для розробки ШІ

Над проектом KazLLM співпрацюють студенти Назарбаєв Університету, Астанинського ІТ Університету, випускники стипендій Болашак і місцеві учасники. Основною метою цієї ініціативи є створення KazLLM і створення робочої сили, здатної створювати інтелектуальні інструменти та програми ШІ.

Технологічний розрив з іншими країнами – це те, що засновник і керівник ISSAI професор Атакан Варол хоче подолати за допомогою цього проекту. Він сказав, що після його завершення Казахстан лише на 18 місяців відставатиме в технологічному плані від провідних країн. Очікується, що інтеграція голосових функцій скоротить цей проміжок часу до 12 місяців, а додаткові вдосконалення моделі мовного бачення можуть вивести Казахстан в авангард розвитку ШІ.

Статті у Вікіпедії, новинні видання, урядові веб-сайти та відкриті набори даних, такі як Common Crawl, є одними з джерел, з яких отримують дані для проекту. Вже більше п’яти років ISSAI створює різні набори даних обробки природної мови, спеціально розроблені для казахської мови. Ця обширна колекція наборів даних є дуже важливою, оскільки вона допомагає ефективно та точно навчати KazLLM.

Казахстан сподівається впоратися з національною та інформаційною безпекою за допомогою інновацій ШІ

Проект KazLLM має наслідки для національної та інформаційної безпеки. Казахстан сподівається мінімізувати свою залежність від іноземних технологій, які можуть призвести до витоку даних і подання викривленої інформації, створивши місцеву мовну модель.

Заступник директора із зовнішніх зв’язків і провідний науковець з даних Мадіна Абдрахманова підкреслила широкий навчальний корпус моделі. «Він складатиметься як мінімум із 100 мільярдів токенів казахською, російською, англійською та турецькою мовами, причому кожна мова буде представлена ​​25 мільярдами токенів», — сказав директор.

Наразі проект має понад 30 мільярдів токенів, у тому числі 26 мільярдів токенів, створених за допомогою перекладача Tilmash, який перетворює дані з англійської на казахську. Ця можливість перекладу гарантує, що модель може створити зв’язний і точний текст казахською мовою.

Читайте також: OpenAI стає спрощеним, випускає дешевшу модель AI під назвою GPT-4o mini

ISSAI має намір створити зручний інтерфейс для KazLLM, як і для моделей OpenAI, щоб зробити його більш доступним. Після завершення він зможе підтримувати взаємодію моделі, підкріплення навчання за відгуками людей і налаштування для різних ситуацій для максимізації продуктивності. KazLLM буде пропонуватися як загальний пакет підписки та як API для досвідчених користувачів.