16 декабря Казахстан собирается сделать огромный технологический шаг вперед, запустив свою первую модель большого языка (LLM) под названием KazLLM. Этот запуск приурочен к 33-й годовщине независимости страны.

Читайте также: Генеративный искусственный интеллект оживляет неигровых персонажей из видеоигр

Об этом сообщил Институт интеллектуальных систем и искусственного интеллекта (ISSAI) на брифинге в Назарбаев Университете 18 июля. Сбор данных в рамках проекта начался в марте, и модель обучается с использованием платформы облачных вычислений, поставляемой с узлами NVIDIA H100.

Студенты и эксперты объединяют усилия в разработке ИИ

Студенты Назарбаев Университета, студенты Астана IT Университета, выпускники стипендии «Болашак» и местные участники сотрудничают в проекте KazLLM. Основная цель этой инициативы — создать KazLLM и создать рабочую силу, способную создавать интеллектуальные инструменты и приложения искусственного интеллекта.

Технологический разрыв с другими странами – это то, что основатель и руководитель ISSAI профессор Атакан Варол хочет преодолеть с помощью этого проекта. По его словам, после его завершения Казахстан будет всего на 18 месяцев отставать по уровню технологий от ведущих стран. Ожидается, что интеграция голосовых функций сократит этот период до 12 месяцев, а дополнительные усовершенствования модели языкового видения могут вывести Казахстан на передний план развития искусственного интеллекта.

Статьи Википедии, новостные агентства, правительственные веб-сайты и открытые наборы данных, такие как Common Crawl, — вот некоторые из источников, из которых получаются данные для проекта. Уже более пяти лет ISSAI создает различные наборы данных для обработки естественного языка, специально предназначенные для казахского языка. Эта обширная коллекция наборов данных очень важна, поскольку они помогают эффективно и точно обучать KazLLM.

Казахстан надеется решить проблему национальной и информационной безопасности с помощью инноваций в области искусственного интеллекта

Проект KazLLM имеет последствия для национальной безопасности и информационной безопасности. Казахстан надеется свести к минимуму свою зависимость от иностранных технологий, которые могут привести к утечке данных и представлению искаженной информации, путем создания местной языковой модели.

Заместитель директора по внешним связям и ведущий специалист по анализу данных Мадина Абдрахманова подчеркнула широкий спектр обучающего корпуса модели. «Он будет состоять как минимум из 100 миллиардов токенов на казахском, русском, английском и турецком языках, причем каждый язык будет представлен 25 миллиардами токенов», — сказал директор.

В настоящее время в проекте имеется более 30 миллиардов токенов, включая 26 миллиардов токенов, созданных с помощью переводчика «Тилмаш», который конвертирует данные с английского на казахский язык. Эта возможность перевода гарантирует, что модель может генерировать связный и точный текст на казахском языке.

Также читайте: OpenAI становится облегченным, выпускает более дешевую модель искусственного интеллекта под названием GPT-4o mini

ISSAI намерен создать для KazLLM удобный интерфейс, аналогичный моделям OpenAI, чтобы сделать его более доступным. По завершении он сможет поддерживать взаимодействие моделей, обучение с подкреплением на основе отзывов людей и настройку для различных ситуаций для максимизации производительности. KazLLM будет предлагаться как общий пакет подписки и как API для опытных пользователей.