Am 16. Dezember wird Kasachstan mit der Einführung seines ersten großen Sprachmodells (LLM) namens KazLLM einen großen technologischen Schritt nach vorne machen. Dieser Start fällt mit dem 33. Jahrestag der Unabhängigkeit des Landes zusammen.

Lesen Sie auch: Generative KI erweckt Videospiel-NPCs zum Leben

Das Institut für intelligente Systeme und künstliche Intelligenz (ISSAI) gab dies während seines Briefings an der Nasarbajew-Universität am 18. Juli bekannt. Die Datenerfassung des Projekts begann im März und das Modell wird mithilfe einer Cloud-Computing-Plattform trainiert, die mit NVIDIA H100-Knoten ausgestattet ist.

Studierende und Experten bündeln Kräfte bei der KI-Entwicklung

Studierende der Nasarbajew-Universität, der Astana IT University, Absolventen des Bolashak-Stipendiums und lokale Teilnehmer arbeiten am KazLLM-Projekt zusammen. Das Hauptziel dieser Initiative ist die Gründung von KazLLM und die Schaffung einer Belegschaft, die intelligente KI-Tools und -Anwendungen entwickeln kann.

Mit diesem Projekt möchte ISSAI-Gründer und -Leiter Professor Atakan Varol die technologische Lücke zu anderen Ländern schließen. Er sagte, dass Kasachstan nach Abschluss des Projekts technologisch nur 18 Monate hinter den führenden Nationen zurückliegen würde. Durch die Integration von Sprachfunktionen soll diese Zeitspanne auf 12 Monate verkürzt werden, während zusätzliche Fortschritte bei Spracherkennungsmodellen Kasachstan an die Spitze der KI-Entwicklung bringen könnten.

Wikipedia-Artikel, Nachrichtenagenturen, Regierungswebsites und offene Datensätze wie Common Crawl sind einige der Quellen, aus denen Daten für das Projekt stammen. Seit über fünf Jahren erstellt ISSAI verschiedene Datensätze zur Verarbeitung natürlicher Sprache, die speziell für die kasachische Sprache entwickelt wurden. Diese umfangreiche Sammlung von Datensätzen ist sehr wichtig, da sie dazu beiträgt, KazLLM effektiv und genau zu trainieren.

Kasachstan hofft, mit KI-Innovationen die nationale und Informationssicherheit zu verbessern

Das KazLLM-Projekt hat Auswirkungen auf die nationale und Informationssicherheit. Kasachstan hofft, seine Abhängigkeit von ausländischer Technologie, die zu Datenlecks und der Darstellung verzerrter Informationen führen kann, durch die Entwicklung eines lokal entwickelten Sprachmodells zu minimieren.

Die stellvertretende Direktorin für Außenbeziehungen und leitende Datenwissenschaftlerin Madina Abdrakhmanova hob das umfangreiche Trainingskorpus des Modells hervor. „Es wird aus mindestens 100 Milliarden Token in den Sprachen Kasachisch, Russisch, Englisch und Türkisch bestehen, wobei jede Sprache durch 25 Milliarden Token repräsentiert wird“, sagte die Direktorin.

Derzeit verfügt das Projekt über mehr als 30 Milliarden Token, darunter 26 Milliarden Token, die mit dem Tilmash-Übersetzer erstellt wurden, der Daten von Englisch in Kasachisch konvertiert. Diese Übersetzungsfunktion stellt sicher, dass das Modell einen zusammenhängenden und genauen Text in der kasachischen Sprache generieren kann.

Lesen Sie auch: OpenAI wird Lite und veröffentlicht günstigeres KI-Modell namens GPT-4o mini

ISSAI beabsichtigt, eine benutzerfreundliche Schnittstelle für KazLLM zu erstellen, wie sie für OpenAI-Modelle üblich ist, um es zugänglicher zu machen. Nach der Fertigstellung wird es in der Lage sein, Modellinteraktion, verstärktes Lernen aus menschlichem Feedback und Feinabstimmung für verschiedene Situationen zur Leistungsmaximierung zu unterstützen. KazLLM wird als allgemeines Abonnementpaket und als API für erfahrene Benutzer angeboten.