12 月 16 日、カザフスタンは KazLLM と呼ばれる初の大規模言語モデル (LLM) を発表し、技術的に大きな前進を遂げる予定です。この発表は、同国の独立 33 周年記念日と一致します。

こちらもお読みください: ジェネレーティブ AI がビデオゲームの NPC に命を吹き込む

スマートシステムおよび人工知能研究所(ISSAI)は、7月18日にナザルバエフ大学で行われた説明会でこれを発表しました。プロジェクトのデータ収集は3月に開始され、モデルはNVIDIA H100ノードで提供されるクラウドコンピューティングプラットフォームを使用してトレーニングされています。

学生と専門家がAI開発に協力

ナザルバエフ大学の学生、アスタナ IT 大学の学生、ボラシャク奨学金の卒業生、地元の参加者が KazLLM プロジェクトに協力しています。この取り組みの主な目的は、KazLLM を作成し、インテリジェントな AI ツールとアプリケーションを作成できる労働力を育成することです。

ISSAIの創設者で代表のアタカン・ヴァロル教授は、このプロジェクトを通じて他国との技術格差を埋めたいと考えている。プロジェクト完了後、カザフスタンは主要国との技術格差がわずか18か月になるだろうと同教授は述べた。音声機能の統合により、この期間は12か月に短縮されると予想されており、言語視覚モデルのさらなる進歩により、カザフスタンはAI開発の最前線に立つことになるかもしれない。

Wikipedia の記事、ニュース アウトレット、政府の Web サイト、Common Crawl などのオープン データセットは、プロジェクトのデータを取得するソースの一部です。ISSAI は 5 年以上にわたって、カザフ語専用に設計されたさまざまな自然言語処理データセットを作成してきました。この広範なデータセット コレクションは、KazLLM を効果的かつ正確にトレーニングするのに役立つため、非常に重要です。

カザフスタンはAIイノベーションで国家と情報の安全保障に取り組むことを望んでいる

KazLLM プロジェクトは国家および情報セキュリティに影響を及ぼします。カザフスタンは、地元で作成された言語モデルを作成することで、データ漏洩や歪んだ情報の提示につながる可能性のある外国の技術への依存を最小限に抑えたいと考えています。

対外関係担当副ディレクター兼主任データサイエンティストのマディナ・アブドラクマノワ氏は、このモデルのトレーニング用コーパスが広範囲に及ぶことを強調した。「このモデルは、カザフ語、ロシア語、英語、トルコ語の少なくとも1000億トークンで構成され、各言語は250億トークンで表現されます」と同ディレクターは述べた。

現在、このプロジェクトには 300 億以上のトークンがあり、その中には英語からカザフ語のデータに変換する Tilmash 翻訳機によって生成された 260 億のトークンが含まれています。この翻訳機能により、モデルによって一貫性のある正確なテキストがカザフ語で生成されます。

こちらもお読みください: OpenAI が軽量化を図り、GPT-4o mini と呼ばれる安価な AI モデルをリリース

ISSAI は、OpenAI モデルのようなユーザーフレンドリーなインターフェースを KazLLM 用に作成し、よりアクセスしやすくする予定です。完成すると、モデルのインタラクション、人間のフィードバックによる強化学習、さまざまな状況に合わせたチューニングをサポートしてパフォーマンスを最大化できるようになります。KazLLM は、一般的なサブスクリプション パッケージとして、また経験豊富なユーザー向けの API として提供されます。