Kazachstán spustí svůj první velký jazykový model

16. prosince se Kazachstán chystá udělat obrovský technologický krok vpřed spuštěním svého prvního velkého jazykového modelu (LLM) nazvaného KazLLM. Tento start se shoduje s 33. výročím nezávislosti země.
Čtěte také: Generativní umělá inteligence oživuje NPC videoher
Institut chytrých systémů a umělé inteligence (ISSAI) to oznámil během svého brífinku na univerzitě Nazarbajev 18. července. Sběr dat projektu začal v březnu a model se trénuje pomocí platformy cloud computingu dodávané s uzly NVIDIA H100.
Studenti a odborníci spojují své síly při vývoji AI
Na projektu KazLLM spolupracují studenti Nazarbajevovy univerzity, studenti Astanské IT univerzity, absolventi stipendií Bolashak a místní účastníci. Hlavním cílem této iniciativy je vytvořit KazLLM a vytvořit pracovní sílu schopnou produkovat inteligentní nástroje a aplikace AI.
Zakladatel a vedoucí ISSAI profesor Atakan Varol chce tímto projektem překlenout technologickou propast s jinými zeměmi. Řekl, že po jejím dokončení bude Kazachstán z hlediska technologie za předními státy pouze 18 měsíců. Očekává se, že integrace hlasových funkcí zkrátí toto rozpětí na 12 měsíců, zatímco další vylepšení modelu jazykového vidění mohou postavit Kazachstán do čela vývoje AI.
Články na Wikipedii, zpravodajské servery, vládní webové stránky a otevřené datové sady, jako je Common Crawl, jsou některé ze zdrojů, kde se získávají data pro projekt. Již více než pět let ISSAI vytváří různé datové sady pro zpracování přirozeného jazyka speciálně navržené pro kazašský jazyk. Tato rozsáhlá sbírka datových sad je velmi důležitá, protože pomáhají efektivně a přesně trénovat KazLLM.
Kazachstán doufá, že se vypořádá s národní a informační bezpečností pomocí inovací AI
Projekt KazLLM má dopady na národní a informační bezpečnost. Kazachstán doufá, že vytvořením místně vytvořeného jazykového modelu minimalizuje svou závislost na zahraničních technologiích, které mohou vést k narušení dat a prezentaci zkreslených informací.
Zástupkyně ředitele pro vnější vztahy a vedoucí databázová vědkyně Madina Abdrakhmanova vyzdvihla široký vzdělávací korpus modelu. "Bude sestávat z minimálně 100 miliard tokenů v kazašském, ruském, anglickém a tureckém jazyce, přičemž každý jazyk bude zastoupen 25 miliardami tokenů," řekl ředitel.
V současné době má projekt více než 30 miliard tokenů, včetně 26 miliard tokenů vyrobených pomocí překladače Tilmash, který převádí data z angličtiny do kazaštiny. Tato schopnost překladu zajišťuje, že model může generovat koherentní a přesný text v kazašském jazyce.
Čtěte také: OpenAI jde lite, vydává levnější model AI s názvem GPT-4o mini
ISSAI má v úmyslu vytvořit uživatelsky přívětivé rozhraní pro KazLLM, stejně jako u modelů OpenAI, aby bylo přístupnější. Po dokončení bude schopen podporovat interakci modelu, posilovat učení z lidské zpětné vazby a ladit různé situace pro maximalizaci výkonu. KazLLM bude nabízen jako obecný balíček předplatného a jako API pro zkušené uživatele.
Prozkoumat více od tvůrce

Nejnovější zprávy