Pada tanggal 16 Desember, Kazakhstan akan mengambil langkah maju secara teknologi dengan meluncurkan model bahasa besar (LLM) pertamanya yang disebut KazLLM. Peluncuran ini bertepatan dengan peringatan kemerdekaan negara yang ke-33.

Baca juga: AI Generatif menghidupkan NPC video game

Institut Sistem Cerdas dan Kecerdasan Buatan (ISSAI) mengumumkan hal ini selama pengarahan mereka di Universitas Nazarbayev pada tanggal 18 Juli. Pengumpulan data proyek dimulai pada bulan Maret dan modelnya dilatih menggunakan platform komputasi awan yang dilengkapi dengan node NVIDIA H100.

Mahasiswa dan pakar bekerja sama dalam pengembangan AI

Mahasiswa Universitas Nazarbayev, mahasiswa Astana IT University, lulusan beasiswa Bolashak, dan peserta lokal berkolaborasi dalam proyek KazLLM. Tujuan utama dari inisiatif ini adalah untuk menciptakan KazLLM dan menciptakan tenaga kerja yang mampu menghasilkan alat dan aplikasi AI yang cerdas.

Kesenjangan teknologi dengan negara lain inilah yang ingin dijembatani oleh pendiri dan ketua ISSAI Profesor Atakan Varol melalui proyek ini. Dia mengatakan bahwa setelah pembangunannya selesai, Kazakhstan hanya akan tertinggal 18 bulan dalam hal teknologi dibandingkan negara-negara terkemuka. Pengintegrasian fitur-fitur suara diperkirakan akan mempersingkat rentang waktu ini menjadi 12 bulan, sementara kemajuan model visi bahasa tambahan dapat menempatkan Kazakhstan di garis depan dalam pengembangan AI.

Artikel Wikipedia, outlet berita, situs web pemerintah, dan kumpulan data terbuka seperti Common Crawl adalah beberapa sumber di mana data untuk proyek tersebut diperoleh. Selama lebih dari lima tahun, ISSAI telah membuat berbagai kumpulan data pemrosesan bahasa alami yang dirancang khusus untuk bahasa Kazakh. Pengumpulan kumpulan data yang ekstensif ini sangat penting karena membantu melatih KazLLM secara efektif dan akurat.

Kazakhstan berharap dapat mengatasi keamanan nasional dan informasi dengan inovasi AI

Proyek KazLLM mempunyai implikasi keamanan nasional dan informasi. Kazakhstan berharap untuk meminimalkan ketergantungannya pada teknologi asing yang dapat mengakibatkan pelanggaran data dan penyajian informasi yang terdistorsi dengan menciptakan model bahasa buatan lokal.

Wakil Direktur Hubungan Eksternal dan Ilmuwan Data Utama, Madina Abdrakhmanova, menyoroti cakupan pelatihan model yang luas. “Ini akan terdiri dari minimal 100 miliar token dalam bahasa Kazakh, Rusia, Inggris, dan Turki dengan masing-masing bahasa diwakili oleh 25 miliar token,” kata direktur.

Saat ini, proyek tersebut memiliki lebih dari 30 miliar token termasuk 26 miliar token yang diproduksi melalui penerjemah Tilmash yang mengubah data bahasa Inggris ke bahasa Kazakh. Kemampuan terjemahan ini memastikan bahwa teks yang koheren dan akurat dapat dihasilkan dalam bahasa Kazakh oleh model.

Baca juga: OpenAI menjadi ringan, merilis model AI yang lebih murah bernama GPT-4o mini

ISSAI bermaksud membuat antarmuka yang ramah pengguna untuk KazLLM, seperti model OpenAI, agar lebih mudah diakses. Setelah selesai, ini akan dapat mendukung interaksi model, pembelajaran penguatan dari umpan balik manusia, dan penyesuaian untuk berbagai situasi untuk memaksimalkan kinerja. KazLLM akan ditawarkan sebagai paket berlangganan umum dan sebagai API untuk pengguna berpengalaman.