Autor: Teng Yan, Chain of Thought; Übersetzung: Jinse Finance Xiaozou
Ich habe eine große Bedauern, das mich bis heute beschäftigt – für jeden, der darauf achtet, ist es zweifellos die offensichtlichste Investitionschance, aber ich habe keinen Cent investiert. Nein, ich spreche nicht von dem nächsten Solana-Killer oder von einem memelastigen Hundemünzen.
Stattdessen... NVIDIA.
In nur einem Jahr stieg die Marktkapitalisierung von NVDA von 1 Billion auf 3 Billionen US-Dollar, was einer Verdreifachung entspricht und sogar die von Bitcoin in derselben Zeit übertraf.
Natürlich gibt es viel Hype um KI, aber ein großer Teil davon hat eine reale Grundlage. NVIDIA gab bekannt, dass der Umsatz für das Geschäftsjahr 2024 bei 60 Milliarden Dollar liegt, was einem Anstieg von 126% gegenüber dem Geschäftsjahr 2023 entspricht und eine beeindruckende Leistung darstellt.
Warum habe ich das verpasst?
Ich habe mich in den letzten zwei Jahren auf den Krypto-Bereich konzentriert und nicht auf die Welt außerhalb geschaut, ohne die Entwicklungen im Bereich der künstlichen Intelligenz zu beachten. Das war ein großer Fehler, den ich heute noch bedauere.
Aber ich werde nicht denselben Fehler wiederholen.
Heute fühlt sich Crypto KI sehr ähnlich an. Wir stehen am Rande eines Innovationsbooms. Es erinnert so sehr an den kalifornischen Goldrausch in der Mitte des 19. Jahrhunderts, dass es schwer zu ignorieren ist – Industrien und Städte entstanden über Nacht, die Infrastruktur entwickelte sich in rasantem Tempo, und Reichtum wurde von denjenigen geschaffen, die den Mut hatten, große Visionen zu verfolgen.
So wie es bei NVIDIA in den frühen Tagen der Fall war, wird Crypto KI im Nachhinein eine offensichtliche Gelegenheit sein.
Im ersten Teil dieses Artikels werde ich erläutern, warum Crypto KI heute die aufregendste Chancen für Investoren und Builder ist.
Eine einfache Übersicht lautet wie folgt:
Viele Menschen halten es immer noch für eine Fantasie.
Crypto KI befindet sich noch in einem frühen Stadium und könnte noch 1-2 Jahre von einem Hype-Peak entfernt sein.
In diesem Bereich gibt es mindestens 230 Milliarden Dollar Wachstumschancen.
Im Wesentlichen ist Crypto KI eine Form von KI, die auf kryptografischer Infrastruktur basiert. Das bedeutet, dass sie eher der exponentiellen Wachstumsbahn der KI folgt als dem breiteren Kryptomarkt. Daher ist es wichtig, die neuesten KI-Forschungen auf Arxiv im Auge zu behalten und mit Gründern zu sprechen, die glauben, dass sie großartige Produkte und Dienstleistungen schaffen.
Im zweiten Teil dieses Artikels werde ich die vier vielversprechendsten Subfelder von Crypto KI genauer untersuchen:
Dezentralisiertes Rechnen: Training, Inferenz und GPU-Markt
Datennetzwerk
Verifizierbare KI
On-Chain-KI-Agenten
Für die Erstellung dieses Artikels habe ich mehrere Wochen damit verbracht, gründlich zu recherchieren und mit Gründern und Teams im Bereich Crypto KI zu sprechen, und dieser Artikel ist das Ergebnis dieser Bemühungen. Der Artikel wird nicht in jedes Detail eintauchen, sondern kann vielmehr als eine hochrangige Roadmap betrachtet werden, die darauf abzielt, Ihre Neugier zu wecken, Ihre Recherche zu steigern und Ihr Investitionsdenken zu leiten.
1. Crypto KI-Landschaft
Ich stelle mir den dezentralen KI-Stack als ein mehrschichtiges Ökosystem vor: An einem Ende beginnt es mit dezentralem Rechnen und offenen Datennetzwerken, die das Training dezentraler KI-Modelle unterstützen.
Dann wird eine Kombination aus Kryptografie, Anreizen in der Kryptoökonomie und Bewertungsnetzwerken verwendet, um jede Inferenz zu verifizieren – sowohl Eingaben als auch Ausgaben. Diese verifizierten Ausgaben fließen an KI-Agenten, die auf der Blockchain autonom arbeiten, sowie an KI-Anwendungen für Verbraucher und Unternehmen, denen die Benutzer wirklich vertrauen können.
Das Koordinationsnetzwerk verbindet alles und ermöglicht nahtlose Kommunikation und Zusammenarbeit im gesamten Ökosystem.
In dieser Vision kann jeder, der KI aufbaut, eine oder mehrere Schichten dieses Stacks entsprechend seinen spezifischen Anforderungen nutzen. Ob durch dezentrales Rechnen für das Training von Modellen oder durch die Nutzung von Bewertungsnetzwerken zur Sicherstellung hochwertiger Ausgaben, der Stack bietet eine Vielzahl von Optionen.
Aufgrund der inhärenten Kombinierbarkeit der Blockchain glaube ich, dass wir natürlich in eine modulare Zukunft gehen werden. Jede Schicht wird hochgradig spezialisiert, und Protokolle werden für unterschiedliche Funktionen optimiert, anstatt einen integrierten Ansatz zu verfolgen.
In jeder Schicht des dezentralen KI-Stacks versammeln sich zahlreiche Start-ups, von denen die meisten in den letzten 1-3 Jahren gegründet wurden. Es ist offensichtlich, dass das Feld noch in den frühen Stadien ist.
Die umfassendste und aktuellste Karte der Crypto KI-Start-ups, die ich gesehen habe, wird von Casey und ihrem Team bei topology.vc gepflegt. Dies ist eine unschätzbare Ressource für jeden, der das Feld verfolgt.
Wenn ich tiefer in den Bereich Crypto KI eintauche, frage ich mich ständig: Wie groß sind die Chancen? Ich bin nicht an kleinen Lösungen interessiert – ich suche nach Märkten, die auf mehrere hundert Milliarden Dollar skalieren können.
(1) Marktgröße
Schauen wir uns zuerst die Marktgröße an. Wenn ich ein Segment bewerten möchte, frage ich mich: Schafft es einen völlig neuen Markt oder zerstört es einen bestehenden Markt?
Nehmen wir dezentrales Rechnen als Beispiel. Es ist eine disruptive Kategorie, deren Potenzial durch die Beobachtung des bestehenden Cloud-Computing-Marktes bewertet werden kann, der derzeit einen Marktwert von etwa 680 Milliarden US-Dollar hat und bis 2032 auf 2,5 Billionen US-Dollar steigen soll.
Ein beispielloser neuer Markt, wie KI-Agenten, ist schwer zu quantifizieren. Ohne historische Daten müssen ihre Bewertungen auf Schätzungen basieren und darauf, welche Probleme sie zu lösen versuchen. Es ist wichtig zu beachten, dass manchmal etwas, das wie ein neuer Markt aussieht, tatsächlich nur eine Lösung ist, die versucht, ein Problem zu finden.
(2) Timing
Timing ist alles. Im Laufe der Zeit neigen Technologien dazu, sich zu verbessern und kostengünstiger zu werden, aber das Tempo der Entwicklungen variiert.
Wie reif ist die Technologie in einem bestimmten Segment? Ist sie bereit für eine skalierte Akzeptanz oder befindet sie sich noch in der Forschungsphase, wobei die tatsächlichen Anwendungen noch Jahre benötigen? Das Timing entscheidet, ob eine Branche sofortige Aufmerksamkeit verdient oder ob man 'abwarten' sollte.
Nehmen wir Full Homomorphic Encryption (FHE) als Beispiel: Ihr Potenzial ist unbestreitbar, aber ihre Entwicklungsgeschwindigkeit ist derzeit zu langsam, um weit verbreitet genutzt zu werden. Wir werden wahrscheinlich noch einige Jahre warten müssen, um zu sehen, dass sie Mainstream-Anwendung finden. Indem ich mich zunächst auf Bereiche konzentriere, die näher an der Skalierung sind, kann ich meine Zeit und Energie auf Bereiche lenken, die Momentum und Möglichkeiten sammeln.
Wenn ich diese Kategorien auf einem Zeit- und Skalendiagramm abbilden müsste, würde es so aussehen. Denken Sie daran, dass dies ein Konzeptbild ist und keine strenge Anleitung. Es gibt viele Nuancen – zum Beispiel haben unterschiedliche Ansätze in der verifizierbaren Inferenz (wie zkML und opML) unterschiedliche Einsatzbereitschaftsgrade.
Das heißt, ich glaube, dass das Volumen der KI so groß sein wird, dass selbst Bereiche, die heute als 'Nischen' erscheinen, sich zu einem bedeutenden Markt entwickeln können.
Ebenfalls bemerkenswert ist, dass technologische Fortschritte nicht immer linear verlaufen – sie sind oft sprunghaft. Wenn eine plötzliche Explosion auftritt, wird sich meine Sicht auf Timing und Marktgröße ändern.
Mit diesem Rahmen lassen Sie uns die einzelnen Subfelder genauer betrachten.
2. Bereich 1: Dezentralisiertes Rechnen
Dezentralisiertes Rechnen ist das Fundament der dezentralen KI.
Der GPU-Markt, dezentrales Training und dezentrale Inferenz sind eng miteinander verbunden.
Die Angebotsseite stammt oft von kleinen und mittelgroßen Rechenzentren und Verbraucher-GPUs.
Die Nachfrage ist zwar klein, wächst aber. Heute kommt sie von preissensiblen, latenzunempfindlichen Benutzern und kleineren KI-Start-ups.
Derzeit steht der Web3-GPU-Markt vor der größten Herausforderung, wie man sie zum Laufen bringt.
Um GPUs in einem dezentralen Netzwerk zu koordinieren, sind fortschrittliche Ingenieurlösungen und gut gestaltete, zuverlässige Netzwerkarchitekturen erforderlich.
2.1 GPU-Markt/Computernetzwerk
Es gibt mehrere Crypto KI-Teams, die dezentrale Netzwerke aufbauen, um die GPU-Knappheit zu beheben, die die Nachfrage nicht befriedigen kann.
Die Kernwertversprechen des GPU-Marktes haben drei Aspekte:
Sie können auf Rechenleistung zugreifen, die '90% niedriger' ist als bei AWS, weil es keinen Zwischenhändler gibt und das Angebot offen ist. Im Wesentlichen ermöglichen diese Märkte, dass Sie die weltweit niedrigsten marginalen Rechenkosten nutzen.
Größere Flexibilität: Keine Lock-in-Verträge, keine KYC-Prozesse, keine Wartezeiten.
Zensurresistenz
Um die Probleme auf der Angebotsseite des Marktes zu lösen, stammt die Rechenleistung dieser Märkte von:
Schwer zu findende unternehmerische GPUs für kleine und mittelgroße Rechenzentren (z. B. A100, H100) oder Bitcoin-Miner, die Diversifizierung anstreben. Ich weiß auch von einigen Teams, die an großen Infrastrukturprojekten mit staatlicher Förderung arbeiten, in denen Rechenzentren bereits als Teil eines technologischen Wachstumsplans eingerichtet wurden. Diese GPU-Anbieter sind oft motiviert, ihre GPUs im Netzwerk zu halten, was ihnen hilft, die Amortisationskosten für ihre GPUs auszugleichen.
Das Verbrauchergepferd GPU von Millionen von Spielern und Haushaltsnutzern, die ihre Computer mit dem Netzwerk verbinden, um Token-Belohnungen zu erhalten.
Auf der anderen Seite stammt die heutige Nachfrage nach dezentralem Rechnen von:
Preissensible, latenzunempfindliche Benutzer. Dieses Segment priorisiert Preis über Geschwindigkeit. Denken Sie an Forscher, die neue Gebiete erkunden, unabhängige KI-Entwickler und andere kostenbewusste Nutzer, die keine Echtzeitverarbeitung benötigen. Aufgrund von Budgetbeschränkungen sind viele von ihnen möglicherweise mit herkömmlichen hyperskalaren Servern (wie AWS oder Azure) unzufrieden. Da sie weit verbreitet sind, ist gezielte Vermarktung entscheidend, um diese Gruppe zu erreichen.
Kleine KI-Start-ups, die vor der Herausforderung stehen, flexible, skalierbare Rechenressourcen zu erhalten, ohne langfristige Verträge mit großen Cloud-Anbietern abzuschließen. Die Geschäftsentwicklung ist entscheidend, um dieses Segment anzusprechen, da sie aktiv nach Alternativen zur hyperskalaren Bindung suchen.
Crypto KI-Start-ups, die dezentrale KI-Produkte entwickeln, aber keine eigene Rechenleistung haben, werden auf die Ressourcen eines der Netzwerke angewiesen sein.
Cloud-Gaming: Obwohl es nicht direkt von KI betrieben wird, wächst die Nachfrage nach GPU-Ressourcen durch Cloud-Gaming.
Ein wichtiger Punkt, den man beachten sollte, ist: Entwickler priorisieren immer Kosten und Zuverlässigkeit.
Die wahre Herausforderung liegt in der Nachfrage, nicht im Angebot.
Start-ups in diesem Bereich betrachten oft die Skalierung ihres GPU-Versorgungsnetzwerks als Maßstab für den Erfolg. Aber das ist irreführend – es ist bestenfalls ein Maßstab für Eitelkeit.
Der wirkliche Engpass ist nicht das Angebot, sondern die Nachfrage. Die Schlüsselmetrik, die verfolgt wird, ist nicht die Anzahl der verfügbaren GPUs, sondern die Auslastung und die tatsächlich vermieteten GPUs.
Token zeigen sich als hervorragendes Mittel zur Steuerung des Angebots und schaffen die Anreize, die für ein schnelles Wachstum erforderlich sind. Sie lösen jedoch nicht grundlegend das Nachfrageproblem. Die wirkliche Herausforderung besteht darin, ein Produkt auf einen ausreichend guten Stand zu bringen, um die potenzielle Nachfrage zu realisieren.
Dazu sagte Haseeb Qureshi (Dragonfly) treffend:
Um ein funktionierendes Rechenetzwerk zu schaffen
Im Gegensatz zur allgemeinen Meinung ist das größte Hindernis, das der Web3-dezentralisierte GPU-Markt derzeit gegenübersteht, wie man sie zum Laufen bringt.
Das ist keine triviale Frage.
Die Koordination von GPUs in einem verteilten Netzwerk ist äußerst komplex, mit vielen Herausforderungen – Ressourcenzuteilung, dynamische Arbeitslastskalierung, Lastenausgleich zwischen Knoten und GPUs, Latenzmanagement, Datenübertragung, Fehlertoleranz und der Umgang mit verschiedenen Hardwaretypen, die geografisch verstreut sind. Ich könnte noch weiter darauf eingehen.
Dies erfordert durchdachtes Ingenieurdesign und ein zuverlässiges, gut gestaltetes Netzwerkarchitektur.
Um es besser zu verstehen, denken Sie an Googles Kubernetes. Es wird allgemein als der Goldstandard für die Orchestrierung von Containern angesehen, der Prozesse wie Lastenausgleich und Skalierung in verteilten Umgebungen automatisiert, was den Herausforderungen eines verteilten GPU-Netzwerks sehr ähnlich ist. Kubernetes selbst basiert auf über einem Jahrzehnt Erfahrung bei Google und benötigte selbst damals Jahre der unermüdlichen Iteration, um gut zu funktionieren.
Einige der bereits bestehenden GPU-Computermärkte können kleine Arbeitslasten bewältigen, aber sobald sie versuchen, zu skalieren, treten Probleme auf. Ich vermute, dass dies auf ihre grundlegende architektonische Gestaltung zurückzuführen ist.
Eine weitere Herausforderung/Chance für dezentrale Rechenetzwerke besteht darin, die Glaubwürdigkeit sicherzustellen: Überprüfen, dass jeder Knoten tatsächlich die behauptete Rechenleistung bereitstellt. Derzeit hängt dies von dem Ruf des Netzwerks ab, und in einigen Fällen werden Rechenanbieter nach ihrem Ruf eingestuft. Blockchain scheint gut geeignet für vertrauenslose Verifizierungssysteme zu sein. Start-ups wie Gensyn und Spheron bemühen sich, dieses Problem mit einem vertrauenslosen Ansatz zu lösen.
Heute stehen viele Web3-Teams vor diesen Herausforderungen, was auch bedeutet, dass die Türen zur Chance weit geöffnet sind.
Marktgröße des dezentralen Rechnens
Wie groß ist der Markt für dezentrale Rechenetzwerke?
Heute könnte es nur ein kleiner Teil der 680 Milliarden bis 2,5 Billionen Dollar schweren Cloud-Computing-Branche sein. Doch selbst mit erhöhter Reibung für die Benutzer wird es immer Nachfrage geben, solange die Kosten unter denen der traditionellen Anbieter liegen.
Ich glaube, dass die Kosten aufgrund von Token-Subventionen und der Freischaltung von Angeboten für preissensible Benutzer im mittelfristigen Zeitraum niedrig bleiben werden (z. B. wenn ich meine Gaming-Laptop vermieten kann, um zusätzliches Geld zu verdienen, egal ob es 20 oder 50 Dollar pro Monat sind, wäre ich glücklich).
Aber das wahre Wachstumspotenzial von dezentralen Rechennetzwerken – und die echte Erweiterung ihres TAM – wird in den folgenden Situationen sichtbar sein:
Dezentralisiertes Training von KI-Modellen wird praktikabel.
Die Nachfrage nach Inferenz steigt rasant, und die bestehenden Rechenzentren können die Nachfrage nicht erfüllen. Dieses Szenario beginnt sich bereits abzuzeichnen. Jensen Huang erklärte, dass die Nachfrage nach Inferenz um 'eine Milliarde' steigen wird.
Geeignete Service-Level-Agreements (SLA) sind verfügbar geworden und haben ein wichtiges Hindernis für die Akzeptanz durch Unternehmen beseitigt. Derzeit erleben die Benutzer in Sachen dezentralem Rechnen unterschiedliche Servicequalitätsniveaus (z. B. Verfügbarkeit). Mit SLAs können diese Netzwerke standardisierte Zuverlässigkeits- und Leistungskennzahlen bereitstellen, die dezentrales Rechnen zu einer praktikablen Alternative zu traditionellen Cloud-Anbietern machen.
Dezentrales, genehmigungsfreies Rechnen ist die Grundschicht des dezentralen KI-Ökosystems – die Infrastruktur.
Obwohl die Lieferkette für GPUs ständig erweitert wird, glaube ich, dass wir uns noch in den Anfängen des Zeitalters der menschlichen Intelligenz befinden. Die Nachfrage nach Rechenleistung wird nicht gedeckt werden können.
Es gibt einen möglicherweise bevorstehenden Wendepunkt, der alle im GPU-Markt aktiven Unternehmen zur Neubewertung zwingt.
Weitere Überlegungen:
Der reine GPU-Markt ist überfüllt, der Wettbewerb zwischen dezentralen Plattformen ist intensiv, und die neuen Cloud-Dienste von Web2 AI (wie der Aufstieg von Vast.ai und Lambda).
Die Nachfrage nach kleinen Knoten (wie 4 x H100) ist nicht groß, da ihre Nutzung begrenzt ist, aber viel Glück beim Finden von Verkäufern für große Cluster – sie haben immer noch eine gewisse Nachfrage.
Wird ein dominierender Akteur alle Rechenleistung für dezentrale Protokolle bündeln oder die Rechenleistung auf mehreren Märkten dezentral halten? Ich neige zu letzterem, da eine Integration normalerweise die Effizienz der Infrastruktur erhöht. Aber das braucht Zeit, währenddessen gehen Spaltung und Chaos weiter.
Entwickler möchten sich auf die Anwendungsentwicklung konzentrieren, nicht mit Bereitstellung und Konfiguration zurechtkommen. Der Markt muss diese Komplexität abstrahieren, um den Zugang zu Rechenleistung so reibungslos wie möglich zu gestalten.
2.2 Dezentralisiertes Training
Wenn das Gesetz der Skalierung funktioniert, wird es eines Tages unmöglich sein, die nächste Generation von Spitzen-KI-Modellen in einem einzelnen Rechenzentrum zu trainieren.
Das Training von KI-Modellen erfordert den Transfer großer Datenmengen zwischen GPUs. Die niedrigeren Datenübertragungs- (Interconnect) Geschwindigkeiten zwischen verteilten GPUs sind oft das größte Hindernis.
Forscher erkunden synchron verschiedene Ansätze und erzielen Fortschritte (z. B. Open DiLoCo, DisTrO). Diese Fortschritte werden sich summieren und den Fortschritt in diesem Bereich beschleunigen.
Die Zukunft des dezentralen Trainings könnte darin liegen, kleine spezialisierte Modelle für Nischenanwendungen zu entwerfen, anstatt gegen große, AGI-zentrierte Spitzenmodelle anzutreten.
Mit dem Übergang zu Modellen wie OpenAI o1 wird die Nachfrage nach Inferenz in die Höhe schnellen und Chancen für dezentrale Inferenznetzwerke schaffen.
Stellen Sie sich vor: Ein riesiges, weltveränderndes KI-Modell, das nicht in geheimen Elite-Laboren entwickelt wurde, sondern von Millionen gewöhnlicher Menschen geformt wird. Die GPUs der Spieler schaffen oft spektakuläre Explosionen (wie in Call of Duty), und jetzt leihen sie ihre Hardware für etwas Größeres – ein Open-Source, kollektiv besessenes KI-Modell ohne zentralen Wächter.
In einer solchen Zukunft werden Modelle im Größenordnungsbereich von Stiftungen nicht nur auf die besten KI-Labore beschränkt sein.
Aber lassen Sie uns diese Vision in die gegenwärtige Realität einbetten. Derzeit ist ein Großteil des gewaltigen KI-Trainings immer noch auf zentralisierten Rechenzentren konzentriert, was für eine Weile der Normalzustand sein könnte.
Unternehmen wie OpenAI erweitern ihre riesigen Cluster. Elon Musk hat kürzlich angekündigt, dass xAI ein Rechenzentrum errichtet, das der Kapazität von 200.000 H100 GPUs entspricht.
Aber es geht nicht nur um die reine GPU-Anzahl. Die Modell-FLOPS-Nutzung (MFU) ist ein Maßstab, den Google in seinem PaLM-Forschungspapier von 2022 eingeführt hat, um die Effizienz der Nutzung der maximalen Kapazität von GPUs zu verfolgen. Überraschenderweise liegt die MFU normalerweise zwischen 35-40%.
Warum so niedrig? Laut dem Mooreschen Gesetz ist die Leistung von GPUs in den letzten Jahren sprunghaft angestiegen, während die Verbesserungen bei Netzwerken, Speicher und Datenspeicherung deutlich hinterherhinken und einen Engpass bilden. Daher befinden sich GPUs häufig im Wartezustand, während sie auf Daten warten.
Das heutige KI-Training bleibt stark zentralisiert, und das aus einem Wort – Effizienz.
Das Training großer Modelle hängt von den folgenden Technologien ab:
Datenparallelität: Aufteilen von Datensätzen über mehrere GPUs und paralleles Ausführen von Operationen zur Beschleunigung des Trainingsprozesses.
Modellparallelität: Verteilung der Teile des Modells über mehrere GPUs, um Speicherbeschränkungen zu umgehen.
Diese Methoden erfordern, dass GPUs ständig Daten austauschen, wobei die Interconnect-Geschwindigkeit – die Rate, mit der Daten im Netzwerk zwischen Computern übertragen werden – entscheidend wird.
Da die Kosten für das Training von Spitzen-KI-Modellen über 1 Milliarde Dollar liegen, ist jede Effizienzsteigerung von Bedeutung.
Durch Hochgeschwindigkeits-Interconnects können zentralisierte Rechenzentren Daten schnell zwischen GPUs übertragen und während der Trainingszeit erhebliche Kosten einsparen, die in dezentralen Umgebungen nicht erreicht werden können.
Überwindung langsamer Interconnect-Geschwindigkeiten
Wenn Sie mit Menschen aus dem Bereich der künstlichen Intelligenz sprechen, werden viele sagen, dass dezentrales Training einfach nicht funktioniert.
In einer dezentralen Umgebung sind GPU-Cluster nicht physisch koexistent, sodass der Datentransfer zwischen ihnen viel langsamer ist und zu einem Engpass wird. Das Training erfordert, dass GPUs bei jedem Schritt synchronisiert und Daten austauschen. Je weiter sie voneinander entfernt sind, desto höher die Latenz. Höhere Latenz bedeutet langsamere Trainingsgeschwindigkeit und höhere Kosten.
Während in zentralisierten Rechenzentren Tage benötigt werden könnten, könnte es in dezentralen Rechenzentren auf bis zu zwei Wochen verlängert werden, und die Kosten wären auch höher. Das ist einfach nicht praktikabel.
Aber das wird sich bald ändern.
Die gute Nachricht ist, dass das Interesse an der Forschung zu verteiltem Training stark gestiegen ist. Forscher erkunden gleichzeitig viele Ansätze, und eine Vielzahl von Studien und veröffentlichten Arbeiten belegen dies. Diese Fortschritte werden sich kumulieren und den Fortschritt in diesem Bereich beschleunigen.
Es geht auch darum, Umgebungen zu testen, um zu sehen, inwieweit wir die Grenzen überschreiten können.
Einige dezentrale Trainingsmethoden können bereits kleinere Modelle in langsamen Interconnect-Umgebungen verarbeiten. Jetzt treiben Spitzenforschungen diese Methoden auf große Modelle voran.
Zum Beispiel demonstriert der Open-Source-Artikel DiCoLo von Prime Intellect einen praktischen Ansatz, der GPU 'Inseln' beinhaltet, die 500 lokale Schritte vor der Synchronisation ausführen, wodurch der Bandbreitenbedarf um das 500-fache reduziert wird. Die Forschung von Google DeepMind zu kleinen Modellen hat sich im Laufe von November auf das Training von Modellen mit 10 Milliarden Parametern ausgeweitet und ist mittlerweile vollständig Open Source.
Nous Research verbessert die Standards durch ihr DisTrO-Framework, das einen Optimierer verwendet, um die Kommunikationsanforderungen zwischen GPUs um das 10.000-fache zu senken, während ein 1.2B-Parameter-Modell trainiert wird, was verblüffend ist.
Und dieser Schwung nimmt weiter zu. Im Dezember letzten Jahres kündigte Nous ein vortrainiertes 15B-Parameter-Modell an, das in Bezug auf Verlustkurve (wie sich der Modellfehler im Laufe der Zeit verringert) und Konvergenzrate (wie schnell sich die Modellleistung stabilisiert) mit den typischen Ergebnissen des zentralisierten Trainings übereinstimmt oder diese sogar übertrifft. Ja, es ist besser als zentralisiert.
SWARM-Parallelismus und DTFMHE sind weitere verschiedene Ansätze zum Training großer KI-Modelle über verschiedene Gerätetypen hinweg, selbst wenn diese Geräte unterschiedliche Geschwindigkeiten und Verbindungsebenen aufweisen.
Die Verwaltung einer Vielzahl von GPU-Hardware ist eine weitere große Herausforderung, insbesondere die typischen speicherbegrenzten Verbraucher-GPUs in dezentralen Netzwerken. Techniken wie Modellparallelität (Aufteilung von Modellschichten über Geräte) können dabei helfen.
Die Zukunft des dezentralen Trainings
Der Umfang der Modelle für derzeitige dezentrale Trainingsmethoden liegt weiterhin weit unter den Spitzenmodellen (es wird berichtet, dass die Parameter von GPT-4 nahezu eine Billion betragen, was 100-mal größer ist als das 10B-Modell von Prime Intellect). Um wirklich zu skalieren, benötigen wir Durchbrüche in der Modellarchitektur, besserer Netzwerk-Infrastruktur und intelligenterer Aufgabenverteilung über Geräte hinweg.
Wir können große Träume haben. Stellen Sie sich eine Welt vor, in der die GPU-Rechenleistung, die für dezentrales Training gesammelt wird, sogar größer ist als die, die die größten zentralisierten Rechenzentren bereitstellen können.
Pluralis Research (ein schlagkräftiges Team, das sich auf dezentrales Training konzentriert, das es wert ist, genau beobachtet zu werden) glaubt, dass dies nicht nur möglich, sondern unvermeidlich ist. Zentralisierte Rechenzentren unterliegen physikalischen Einschränkungen wie Raum und verfügbarer Energie, während dezentrale Netzwerke auf einen wahrhaft unbegrenzten globalen Ressourcenpool zugreifen können.
Sogar Jensen Huang von NVIDIA hat zugegeben, dass asynchrones dezentrales Training das wahre Potenzial der KI-Expansion freisetzen kann. Verteilte Trainingsnetzwerke sind auch fehlertoleranter.
Daher wird in einer potenziellen zukünftigen Welt das mächtigste KI-Modell der Welt auf eine dezentrale Weise trainiert.
Es ist ein aufregendes Szenario, aber ich bin derzeit noch nicht vollständig überzeugt. Wir benötigen stärkere Beweise dafür, dass das dezentrale Training für die größten Modelle technisch und wirtschaftlich machbar ist.
Ich sehe hierin große Hoffnung: Der beste Aspekt des dezentralen Trainings könnte darin liegen, kleine spezialisierte Open-Source-Modelle für spezifische Anwendungsfälle zu entwerfen, anstatt gegen die großen AGI-zentrierten Spitzenmodelle zu konkurrieren. Bestimmte Architekturen, insbesondere Nicht-Transformer-Modelle, haben sich als sehr gut geeignet für dezentrale Umgebungen erwiesen.
Dieses Rätsel hat einen weiteren Teil: Token. Sobald das dezentrale Training in großem Maßstab praktikabel wird, können Token eine Schlüsselrolle bei der Anreizsetzung und Belohnung der Beitragsleister spielen und diese Netzwerke effektiv steuern.
Der Weg zur Verwirklichung dieser Vision ist noch lang, aber der Fortschritt ist ermutigend. Da die zukünftigen Modelle die Kapazität eines einzelnen Rechenzentrums übersteigen werden, wird der Fortschritt im dezentralen Training allen zugutekommen, auch großen Technologieunternehmen und führenden KI-Forschungslaboren.
Die Zukunft ist verteilt. Wenn eine Technologie ein so breites Potenzial hat, zeigt die Geschichte, dass sie immer besser und schneller ist, als die meisten es erwarten.
2.3. Dezentrale Inferenz
Derzeit konzentriert sich die meiste Rechenleistung in der KI auf das Training großer Modelle. Spitzen-KI-Labore wetteifern darum, wer das beste Basis-Modell entwickeln kann, um letztendlich AGI zu erreichen.
Aber meine Ansicht ist: In den kommenden Jahren wird sich dieser Fokus auf das Training zunehmend auf die Inferenz verlagern. Da KI immer mehr in die Anwendungen integriert wird, die wir täglich verwenden – von Gesundheitswesen bis Unterhaltung – wird die Menge an Rechenressourcen, die zur Unterstützung der Inferenz erforderlich sind, enorm sein.
Es ist nicht einfach nur eine Vermutung. Die Skalierung der Inferenzzeit ist der neueste Schlagwort im Bereich der KI. Hat OpenAI kürzlich eine Vorschau auf sein neuestes Modell 01 (Codename: Strawberry) veröffentlicht? Ist das ein bedeutender Wendepunkt? Es braucht Zeit, um darüber nachzudenken, sich zuerst zu fragen, welche Schritte ich unternehmen sollte, um diese Frage zu beantworten, und dann schrittweise voranzuschreiten.
Dieses Modell ist für komplexere, gut planbare Aufgaben wie Kreuzworträtsel und tiefere, analytische Fragen konzipiert. Sie werden feststellen, dass es langsamer wird und mehr Zeit benötigt, um Antworten zu generieren, aber die Ergebnisse sind nachdenklicher und detaillierter. Die Betriebskosten sind ebenfalls viel höher (25-mal mehr als die von GPT-4).
Der Schwerpunkt verschiebt sich offensichtlich: Der nächste Sprung in der KI-Leistung wird nicht nur durch das Training größerer Modelle kommen, sondern auch durch die Skalierung von Rechenanwendungen während der Inferenz.
Wenn Sie mehr erfahren möchten, zeigen einige Forschungsartikel:
Durch wiederholtes Sampling kann die Inferenzberechnung erheblich zwischen verschiedenen Aufgaben verbessert werden.
Es gibt auch ein Skalierungsgesetz für die Inferenz.
Sobald mächtige Modelle trainiert sind, können ihre Inferenzaufgaben – das, was das Modell tut – auf dezentrale Rechennetzwerke übertragen werden. Das macht Sinn, weil:
Im Vergleich zum Training benötigen Inferenzanwendungen weitaus weniger Ressourcen. Nach dem Training können Techniken wie Quantisierung, Pruning oder Distillation verwendet werden, um Modelle zu komprimieren und zu optimieren. Sie können sogar auf Alltagsverbrauchgeräten ausgeführt werden. Sie benötigen keine High-End-GPUs, um Inferenz zu unterstützen.
Das ist bereits geschehen. Exo Labs hat einen Weg gefunden, das 450B-Parameter-Llama3-Modell auf Verbrauchermaterialien wie MacBook und Mac Mini auszuführen. Verteilte Inferenz über mehrere Geräte kann große Arbeitslasten effizient und kostengünstig verarbeiten.
Bessere Benutzererfahrung. Rechenoperationen näher am Benutzer durchzuführen, kann die Latenz verringern, was für Echtzeitanwendungen wie Spiele, AR oder autonomes Fahren entscheidend ist. Jede Millisekunde zählt.
Stellen Sie sich dezentrale Inferenz als ein CDN (Content Delivery Network) für KI vor: Dezentrale Inferenz nutzt lokale Rechenkapazitäten, um KI-Antworten in Rekordzeit bereitzustellen, anstatt über nahegelegene Server, um Webseiten schnell zu liefern. Durch die Annahme dezentraler Inferenz werden KI-Anwendungen effizienter, schneller und zuverlässiger.
Der Trend ist offensichtlich. Der neu eingeführte M4 Pro-Chip von Apple konkurriert mit NVIDIAs RTX 3070 Ti, die bis vor kurzem das Reich der Hardcore-Spieler war. Unsere Hardware wird immer fähiger, anspruchsvolle KI-Workloads zu bewältigen.
Der Mehrwert von Crypto
Um erfolgreich zu sein, benötigt das dezentrale Inferenznetzwerk überzeugende wirtschaftliche Anreize. Knoten im Netzwerk müssen für ihren Beitrag zur Rechenleistung entschädigt werden. Das System muss sicherstellen, dass Belohnungen fair und effektiv verteilt werden. Geografische Diversität ist notwendig, um die Latenz von Inferenzaufgaben zu reduzieren und die Fehlertoleranz zu erhöhen.
Was ist der beste Weg, um ein dezentrales Netzwerk aufzubauen? Crypto.
Token bieten einen leistungsstarken Mechanismus zur Koordination der Interessen der Teilnehmer und stellen sicher, dass alle auf dasselbe Ziel hinarbeiten: das Netzwerk zu erweitern und den Tokenwert zu steigern.
Token haben auch das Wachstum des Netzwerks beschleunigt. Sie haben geholfen, das klassische Henne-und-Ei-Problem zu lösen, indem sie frühe Anwender belohnen und die Teilnahme von Anfang an fördern, was das Wachstum der meisten Netzwerke behindert hat.
Der Erfolg von Bitcoin und Ethereum hat dies bewiesen – sie haben das größte Rechenleistungspool auf dem Planeten versammelt.
Dezentrale Inferenznetzwerke werden die nächste Stufe sein. Aufgrund der geografischen Diversität reduzieren sie die Latenz und erhöhen die Fehlertoleranz, wodurch KI näher an die Benutzer heranrückt. Unter Krypto-Anreizen werden sie schneller und besser skalieren als traditionelle Netzwerke.
(Fortsetzung folgt, bleiben Sie dran)