Vào ngày 16 tháng 12, Kazakhstan chuẩn bị thực hiện một bước tiến lớn về công nghệ bằng cách ra mắt mô hình ngôn ngữ lớn (LLM) đầu tiên có tên KazLLM. Lần ra mắt này trùng với dịp kỷ niệm 33 năm độc lập của đất nước.

Cũng đọc: AI sáng tạo làm cho các NPC trong trò chơi điện tử trở nên sống động

Viện Hệ thống Thông minh và Trí tuệ Nhân tạo (ISSAI) đã công bố điều này trong cuộc họp giao ban của họ tại Đại học Nazarbayev vào ngày 18 tháng 7. Quá trình thu thập dữ liệu của dự án bắt đầu vào tháng 3 và mô hình đang được đào tạo bằng nền tảng điện toán đám mây được cung cấp với các nút NVIDIA H100.

Sinh viên và chuyên gia cùng hợp tác phát triển AI

Sinh viên Đại học Nazarbayev, sinh viên Đại học CNTT Astana, sinh viên tốt nghiệp học bổng Bolashak và những người tham gia địa phương đang hợp tác trong dự án KazLLM. Mục đích chính của sáng kiến ​​này là tạo ra KazLLM và tạo ra lực lượng lao động có khả năng sản xuất các công cụ và ứng dụng AI thông minh.

Khoảng cách công nghệ với các nước khác là điều mà người sáng lập và giáo sư trưởng ISSAI Atakan Varol muốn thu hẹp thông qua dự án này. Ông cho rằng sau khi hoàn thành, Kazakhstan sẽ chỉ chậm hơn 18 tháng về mặt công nghệ so với các quốc gia dẫn đầu. Việc tích hợp các tính năng giọng nói được dự đoán sẽ rút ngắn khoảng thời gian này xuống còn 12 tháng trong khi những tiến bộ bổ sung về mô hình thị giác ngôn ngữ có thể đưa Kazakhstan đi đầu trong phát triển AI.

Các bài viết trên Wikipedia, các cửa hàng tin tức, trang web của chính phủ và các bộ dữ liệu mở như Common Crawl là một số nguồn thu thập dữ liệu cho dự án. Trong hơn 5 năm nay, ISSAI đã tạo ra nhiều bộ dữ liệu xử lý ngôn ngữ tự nhiên khác nhau được thiết kế dành riêng cho ngôn ngữ Kazakhstan. Bộ sưu tập dữ liệu phong phú này rất quan trọng vì chúng giúp đào tạo KazLLM một cách hiệu quả và chính xác.

Kazakhstan hy vọng giải quyết vấn đề an ninh quốc gia và thông tin bằng đổi mới AI

Dự án KazLLM có ý nghĩa về an ninh quốc gia và thông tin. Kazakhstan đang hy vọng giảm thiểu sự phụ thuộc vào công nghệ nước ngoài có thể dẫn đến vi phạm dữ liệu và trình bày thông tin sai lệch bằng cách tạo ra một mô hình ngôn ngữ được sản xuất tại địa phương.

Phó Giám đốc Quan hệ Đối ngoại và Nhà khoa học Dữ liệu Trưởng, Madina Abdrakhmanova, đã nhấn mạnh phạm vi đào tạo rộng khắp của mô hình. Giám đốc cho biết: “Nó sẽ bao gồm tối thiểu 100 tỷ token bằng tiếng Kazakhstan, tiếng Nga, tiếng Anh và tiếng Thổ Nhĩ Kỳ với mỗi ngôn ngữ được đại diện bởi 25 tỷ token”.

Hiện tại, dự án có hơn 30 tỷ token trong đó có 26 tỷ token được sản xuất thông qua trình dịch Tilmash chuyển đổi dữ liệu tiếng Anh sang tiếng Kazakhstan. Khả năng dịch thuật này đảm bảo rằng mô hình có thể tạo ra văn bản mạch lạc và chính xác bằng ngôn ngữ Kazakhstan.

Cũng đọc: OpenAI trở nên nhẹ nhàng hơn, phát hành mẫu AI rẻ hơn có tên GPT-4o mini

ISSAI dự định tạo ra một giao diện thân thiện với người dùng cho KazLLM, giống như giao diện của các mô hình OpenAI, để giúp nó dễ tiếp cận hơn. Sau khi hoàn thành, nó sẽ có thể hỗ trợ tương tác mô hình, học tập tăng cường từ phản hồi của con người và điều chỉnh cho các tình huống khác nhau để tối đa hóa hiệu suất. KazLLM sẽ được cung cấp dưới dạng gói đăng ký chung và dưới dạng API cho người dùng có kinh nghiệm.