12 月 16 日,哈薩克斯坦將推出其首個大型語言模型 (LLM),即 KazLLM,這是技術上的一大進步。此次發佈恰逢該國獨立 33 週年。
另請閱讀:生成式人工智能讓視頻遊戲中的 NPC 栩栩如生
智能系統與人工智能研究所 (ISSAI) 於 7 月 18 日在納扎爾巴耶夫大學的簡報會上宣佈了這一消息。該項目的數據收集工作於 3 月開始,模型正在使用配備 NVIDIA H100 節點的雲計算平臺進行訓練。
學生與專家聯手開發人工智能
納扎爾巴耶夫大學學生、阿斯塔納信息技術大學學生、博拉沙克獎學金畢業生和當地參與者正在合作開展 KazLLM 項目。該計劃的主要目的是創建 KazLLM 並培養一支能夠生產智能 AI 工具和應用程序的勞動力隊伍。
ISSAI 創始人兼負責人 Atakan Varol 教授希望通過這個項目彌合與其他國家之間的技術差距。他表示,該項目完成後,哈薩克斯坦在技術方面僅落後領先國家 18 個月。集成語音功能預計將把這一時間縮短至 12 個月,而額外的語言視覺模型進步可能會讓哈薩克斯坦走在人工智能發展的前沿。
維基百科文章、新聞媒體、政府網站和 Common Crawl 等開放數據集是該項目數據來源的一部分。五年多來,ISSAI 一直在創建各種專門爲哈薩克語設計的自然語言處理數據集。這個廣泛的數據集集合非常重要,因爲它們有助於有效和準確地訓練 KazLLM。
哈薩克斯坦希望利用人工智能創新解決國家和信息安全問題
KazLLM 項目對國家和信息安全具有重要意義。哈薩克斯坦希望通過創建本地語言模型,最大限度地減少對外國技術的依賴,因爲外國技術可能會導致數據泄露和信息失真。
對外關係副主任兼首席數據科學家 Madina Abdrakhmanova 強調了該模型廣泛的訓練語料庫。“它將包含至少 1000 億個哈薩克語、俄語、英語和土耳其語標記,每種語言由 250 億個標記表示,”主任說。
目前,該項目擁有超過 300 億個 token,其中包括通過 Tilmash 翻譯器生成的 260 億個 token,該翻譯器將英語數據轉換爲哈薩克語數據。這種翻譯能力確保模型能夠用哈薩克語生成連貫而準確的文本。
另請閱讀:OpenAI 走向精簡,發佈名爲 GPT-4o mini 的更便宜的 AI 模型
ISSAI 打算爲 KazLLM 創建一個用戶友好的界面,就像 OpenAI 模型那樣,以使其更易於訪問。完成後,它將能夠支持模型交互、從人類反饋中進行強化學習以及針對不同情況進行調整以最大限度地提高性能。KazLLM 將作爲一般訂閱包和有經驗用戶的 API 提供。