16 grudnia Kazachstan zrobi ogromny krok naprzód technologiczny, uruchamiając swój pierwszy duży model językowy (LLM) o nazwie KazLLM. Premiera ta zbiega się z 33. rocznicą niepodległości kraju.
Przeczytaj także: Generatywna sztuczna inteligencja ożywia NPC z gier wideo
Instytut Inteligentnych Systemów i Sztucznej Inteligencji (ISSAI) ogłosił to podczas odprawy na Uniwersytecie Nazarbajewa 18 lipca. Gromadzenie danych w ramach projektu rozpoczęło się w marcu, a model jest szkolony przy użyciu platformy przetwarzania w chmurze dostarczanej z węzłami NVIDIA H100.
Studenci i eksperci łączą siły w rozwoju sztucznej inteligencji
Nad projektem KazLLM współpracują studenci Uniwersytetu Nazarbajewa, studenci Uniwersytetu IT w Astanie, absolwenci stypendiów Bolashaka i lokalni uczestnicy. Głównym celem tej inicjatywy jest utworzenie KazLLM i stworzenie siły roboczej zdolnej do tworzenia inteligentnych narzędzi i aplikacji AI.
Założyciel i szef ISSAI, profesor Atakan Varol, chce w ramach tego projektu wypełnić lukę technologiczną w stosunku do innych krajów. Powiedział, że po jego zakończeniu Kazachstan będzie zaledwie 18 miesięcy w tyle pod względem technologicznym z wiodącymi krajami. Oczekuje się, że integracja funkcji głosowych skróci ten okres do 12 miesięcy, a dodatkowe udoskonalenia modelu widzenia językowego mogą sprawić, że Kazachstan stanie się liderem w rozwoju sztucznej inteligencji.
Artykuły w Wikipedii, serwisy informacyjne, strony rządowe i otwarte zbiory danych, takie jak Common Crawl, to tylko niektóre ze źródeł, z których pozyskiwane są dane na potrzeby projektu. Od ponad pięciu lat ISSAI tworzy różne zbiory danych do przetwarzania języka naturalnego zaprojektowane specjalnie dla języka kazachskiego. Ten obszerny zbiór zbiorów danych jest bardzo ważny, ponieważ pomaga w skutecznym i dokładnym szkoleniu KazLLM.
Kazachstan ma nadzieję rozwiązać problem bezpieczeństwa narodowego i informacyjnego dzięki innowacjom AI
Projekt KazLLM ma konsekwencje dla bezpieczeństwa narodowego i bezpieczeństwa informacji. Kazachstan ma nadzieję zminimalizować swoją zależność od zagranicznych technologii, która może skutkować naruszeniami danych i prezentacją zniekształconych informacji, poprzez stworzenie lokalnego modelu językowego.
Zastępca dyrektora ds. relacji zewnętrznych i główna specjalistka ds. danych, Madina Abdrakhmanova, podkreśliła szeroki zakres szkoleniowy modelu. „Będzie składać się z co najmniej 100 miliardów tokenów w językach kazachskim, rosyjskim, angielskim i tureckim, przy czym każdy język będzie reprezentowany przez 25 miliardów tokenów” – powiedział dyrektor.
Obecnie projekt ma ponad 30 miliardów tokenów, w tym 26 miliardów tokenów wyprodukowanych za pomocą tłumacza Tilmash, który konwertuje dane z języka angielskiego na kazachski. Ta możliwość tłumaczenia gwarantuje, że model może wygenerować spójny i dokładny tekst w języku kazachskim.
Przeczytaj także: OpenAI staje się lite, wypuszcza tańszy model AI o nazwie GPT-4o mini
ISSAI zamierza stworzyć przyjazny dla użytkownika interfejs dla KazLLM, podobny do interfejsów modeli OpenAI, aby uczynić go bardziej dostępnym. Po ukończeniu będzie w stanie wspierać interakcję modelu, uczenie się przez wzmacnianie na podstawie informacji zwrotnych od ludzi i dostosowywanie do różnych sytuacji w celu maksymalizacji wydajności. KazLLM będzie oferowany jako ogólny pakiet subskrypcji oraz jako API dla doświadczonych użytkowników.