12 月 16 日,哈萨克斯坦将推出其首个大型语言模型 (LLM),即 KazLLM,这是技术上的一大进步。此次发布恰逢该国独立 33 周年。

另请阅读:生成式人工智能让视频游戏中的 NPC 栩栩如生

智能系统与人工智能研究所 (ISSAI) 于 7 月 18 日在纳扎尔巴耶夫大学的简报会上宣布了这一消息。该项目的数据收集工作于 3 月开始,模型正在使用配备 NVIDIA H100 节点的云计算平台进行训练。

学生与专家联手开发人工智能

纳扎尔巴耶夫大学学生、阿斯塔纳信息技术大学学生、博拉沙克奖学金毕业生和当地参与者正在合作开展 KazLLM 项目。该计划的主要目的是创建 KazLLM 并培养一支能够生产智能 AI 工具和应用程序的劳动力队伍。

ISSAI 创始人兼负责人 Atakan Varol 教授希望通过这个项目弥合与其他国家之间的技术差距。他表示,该项目完成后,哈萨克斯坦在技术方面仅落后领先国家 18 个月。集成语音功能预计将把这一时间缩短至 12 个月,而额外的语言视觉模型进步可能会让哈萨克斯坦走在人工智能发展的前沿。

维基百科文章、新闻媒体、政府网站和 Common Crawl 等开放数据集是该项目数据来源的一部分。五年多来,ISSAI 一直在创建各种专门为哈萨克语设计的自然语言处理数据集。这个广泛的数据集集合非常重要,因为它们有助于有效和准确地训练 KazLLM。

哈萨克斯坦希望利用人工智能创新解决国家和信息安全问题

KazLLM 项目对国家和信息安全具有重要意义。哈萨克斯坦希望通过创建本地语言模型,最大限度地减少对外国技术的依赖,因为外国技术可能会导致数据泄露和信息失真。

对外关系副主任兼首席数据科学家 Madina Abdrakhmanova 强调了该模型广泛的训练语料库。“它将包含至少 1000 亿个哈萨克语、俄语、英语和土耳其语标记,每种语言由 250 亿个标记表示,”主任说。

目前,该项目拥有超过 300 亿个 token,其中包括通过 Tilmash 翻译器生成的 260 亿个 token,该翻译器将英语数据转换为哈萨克语数据。这种翻译能力确保模型能够用哈萨克语生成连贯而准确的文本。

另请阅读:OpenAI 走向精简,发布名为 GPT-4o mini 的更便宜的 AI 模型

ISSAI 打算为 KazLLM 创建一个用户友好的界面,就像 OpenAI 模型那样,以使其更易于访问。完成后,它将能够支持模型交互、从人类反馈中进行强化学习以及针对不同情况进行调整以最大限度地提高性能。KazLLM 将作为一般订阅包和有经验用户的 API 提供。