Autor: IOSG
TL;DR
Da die Kombination von Web3 und AI zu einem wichtigen Thema in der Kryptowelt wird, blüht der Aufbau der AI-Infrastruktur in der Krypto-Welt auf, aber es gibt nur wenige Anwendungen, die AI tatsächlich nutzen oder für AI entwickelt wurden, und die Homogenitätsproblematik der AI-Infrastruktur wird allmählich offensichtlich. Die erste Finanzierungsrunde von RedPill, an der wir teilgenommen haben, hat einige tiefere Einsichten ausgelöst.
Die Hauptwerkzeuge zum Aufbau von AI-Dapps umfassen den dezentralisierten Zugang zu OpenAI, GPU-Netzwerke, Inferenznetzwerke und Agentennetzwerke.
Die Tatsache, dass GPU-Netzwerke heißer sind als die "Bitcoin-Mining-Ära", liegt daran, dass: Der AI-Markt größer ist und schnell und stabil wächst; AI unterstützt täglich Millionen von Anwendungen; AI benötigt eine Vielzahl von GPU-Modellen und Serverstandorten; die Technik ist reifer als je zuvor; die Zielgruppe ist ebenfalls breiter.
Inferenznetzwerke und Agentennetzwerke haben ähnliche Infrastrukturen, aber unterschiedliche Schwerpunkte. Inferenznetzwerke sind hauptsächlich für erfahrene Entwickler gedacht, die ihre eigenen Modelle bereitstellen, während das Ausführen von Nicht-LLM-Modellen nicht unbedingt GPUs erfordert. Agentennetzwerke konzentrieren sich mehr auf LLM, und Entwickler müssen keine eigenen Modelle mitbringen, sondern legen mehr Wert auf Prompt Engineering und darauf, wie verschiedene Agenten miteinander verbunden werden können. Agentennetzwerke benötigen immer leistungsstarke GPUs.
AI-Infrastrukturprojekte versprechen Großes und bringen ständig neue Funktionen heraus.
Die meisten nativen Krypto-Projekte befinden sich noch in der Testnetzphase, haben eine geringe Stabilität, komplexe Konfigurationen und eingeschränkte Funktionen und benötigen Zeit, um ihre Sicherheit und Privatsphäre zu beweisen.
Angenommen, KI-Dapps werden ein großer Trend, gibt es viele unerschlossene Bereiche wie Überwachung, RAG-bezogene Infrastrukturen, Web3-nativen Modelle, integrierte kryptonativen APIs und dezentrale Agenten zur Datenbewertung.
Vertikale Integration ist ein markanter Trend. Infrastrukturprojekte versuchen, einen One-Stop-Service anzubieten, um die Arbeit der KI-Dapp-Entwickler zu vereinfachen.
Die Zukunft wird hybrid sein. Ein Teil der Inferenz erfolgt im Frontend, während ein Teil auf der Kette berechnet wird, um Kosten- und Überprüfbarkeitsfaktoren zu berücksichtigen.
Quelle: IOSG
Einleitung
Die Kombination von Web3 und AI ist eines der aktuell angesagtesten Themen im Krypto-Bereich. Talented Entwickler bauen AI-Infrastruktur für die Krypto-Welt auf und zielen darauf ab, Intelligenz in Smart Contracts zu bringen. Der Aufbau von KI-Dapps ist eine äußerst komplexe Aufgabe, bei der Entwickler mit einem breiten Spektrum an Themen wie Daten, Modellen, Rechenleistung, Betrieb, Bereitstellung und Integration in die Blockchain umgehen müssen.
Um diesen Bedürfnissen gerecht zu werden, haben die Gründer von Web3 viele erste Lösungen entwickelt, wie GPU-Netzwerke, Community-Datenannotation, Community-trainierte Modelle, überprüfbare AI-Inferenz und -Training sowie Agentenläden. Dennoch gibt es in diesem florierenden Infrastrukturkontext nur wenige Anwendungen, die AI tatsächlich nutzen oder für AI entwickelt wurden.
Entwickler, die nach Tutorials für die Entwicklung von AI-Dapps suchen, stellen fest, dass es nur wenige Tutorials gibt, die mit nativer Krypto-AI-Infrastruktur zu tun haben. Die meisten Tutorials beschränken sich auf den Aufruf der OpenAI-API im Frontend.
Quelle: IOSG Ventures
Die aktuellen Anwendungen nutzen die dezentralisierten und überprüfbaren Funktionen der Blockchain nicht ausreichend aus, aber dieser Zustand wird sich bald ändern. Derzeit haben die meisten auf den Krypto-Bereich ausgerichteten AI-Infrastrukturprojekte Testnetzwerke gestartet und planen, innerhalb der nächsten 6 Monate offiziell zu laufen. Diese Studie wird die wichtigsten Werkzeuge in der AI-Infrastruktur im Krypto-Bereich detailliert vorstellen. Lassen Sie uns bereit sein, den GPT-3.5-Moment der Krypto-Welt zu begrüßen!
1. RedPill: Dezentrale Autorisierung für OpenAI
Der zuvor erwähnte RedPill, in den wir investiert haben, ist ein hervorragender Einstiegspunkt. OpenAI verfügt über mehrere leistungsstarke Modelle von Weltklasse, wie GPT-4-vision, GPT-4-turbo und GPT-4o, und ist die bevorzugte Wahl für den Aufbau fortschrittlicher KI-Dapps. Entwickler können die OpenAI-API über Orakel oder Frontend-Schnittstellen aufrufen, um sie in Dapps zu integrieren.
RedPill integriert die OpenAI-APIs verschiedener Entwickler unter einer Schnittstelle und bietet globalen Nutzern schnelle, kostengünstige und überprüfbare KI-Dienste, was zur Demokratisierung des Zugangs zu führenden KI-Modellen führt. Der Routing-Algorithmus von RedPill leitet die Anfragen der Entwickler an einen einzelnen Beitragenden weiter. API-Anfragen werden über sein Verteilungsnetzwerk ausgeführt, um mögliche Einschränkungen von OpenAI zu umgehen und einige gängige Probleme zu lösen, mit denen Krypto-Entwickler konfrontiert sind, wie:
• Begrenzung von TPM (Tokens pro Minute): Neue Konten haben eine begrenzte Nutzung von Tokens, was nicht den Anforderungen beliebter, AI-abhängiger Dapps gerecht wird.
• Zugriffsbeschränkungen: Einige Modelle haben Zugangsbegrenzungen für neue Konten oder bestimmte Länder festgelegt.
Durch die Verwendung desselben Anfragecodes, jedoch mit geändertem Hostnamen, können Entwickler kostengünstig, hoch skalierbar und ohne Einschränkungen auf OpenAI-Modelle zugreifen.
2. GPU-Netzwerke
Neben der Nutzung der API von OpenAI entscheiden sich viele Entwickler dafür, Modelle selbst zu Hause zu hosten. Sie können sich auf dezentrale GPU-Netzwerke wie io.net, Aethir, Akash und andere beliebte Netzwerke stützen, um GPU-Cluster zu erstellen und verschiedene leistungsstarke interne oder Open-Source-Modelle bereitzustellen und auszuführen.
Ein solches dezentralisiertes GPU-Netzwerk kann durch die Rechenleistung von Einzelpersonen oder kleinen Rechenzentren flexible Konfigurationen, eine größere Auswahl an Serverstandorten und niedrigere Kosten bieten, sodass Entwickler AI-bezogene Experimente leicht innerhalb eines begrenzten Budgets durchführen können. Aufgrund der dezentralen Natur gibt es jedoch gewisse Einschränkungen in Bezug auf Funktionalität, Verfügbarkeit und Datenschutz.
In den letzten Monaten war die Nachfrage nach GPUs enorm und überstieg die vorherige Bitcoin-Mining-Hype. Die Gründe für dieses Phänomen sind:
Die Anzahl der Zielkunden steigt, GPU-Netzwerke bedienen jetzt AI-Entwickler, deren Zahl nicht nur groß, sondern auch loyal ist und nicht von den Preisschwankungen der Kryptowährung betroffen ist.
Im Vergleich zu Mining-spezifischen Geräten bieten dezentrale GPUs mehr Modelle und Spezifikationen, die besser auf Anforderungen abgestimmt sind. Insbesondere die Verarbeitung großer Modelle erfordert mehr VRAM, während kleinere Aufgaben geeignete GPUs bieten. Gleichzeitig können dezentrale GPUs in der Nähe der Endbenutzer betrieben werden, was die Latenz verringert.
Die Technologie reift weiter, GPU-Netzwerke verlassen sich auf Hochgeschwindigkeitsblockchains wie Solana für Abrechnungen, Docker-Virtualisierungstechnologie und Ray-Berechnungcluster.
Im Hinblick auf die Rendite expandiert der AI-Markt, neue Anwendungen und Modellentwicklungsmöglichkeiten sind vielfältig, die erwartete Rendite des H100-Modells liegt bei 60-70%, während das Bitcoin-Mining komplexer ist, Gewinner nehmen alles und die Erträge sind begrenzt.
Bitcoin-Mining-Unternehmen wie Iris Energy, Core Scientific und Bitdeer beginnen ebenfalls, GPU-Netzwerke zu unterstützen, AI-Dienste anzubieten und aktiv GPUs zu erwerben, die speziell für AI entwickelt wurden, wie H100.
Empfehlung: Für Web2-Entwickler, die SLA nicht so sehr schätzen, bietet io.net eine benutzerfreundliche Erfahrung und ist eine kostengünstige Wahl.
Dies ist der Kern der krypto-nativen AI-Infrastruktur. Sie wird in Zukunft Milliarden von AI-Inferenzoperationen unterstützen. Viele AI Layer1 oder Layer2 bieten Entwicklern die Möglichkeit, AI-Inferenz nativ auf der Kette aufzurufen. Marktführer sind Ritual, Valence und Fetch.ai.
Diese Netzwerke unterscheiden sich in folgenden Aspekten: Leistung (Latenz, Berechnungszeit), unterstützte Modelle, Überprüfbarkeit, Preis (On-Chain-Kosten, Inferenzkosten), Entwicklungserfahrung.
3.1 Ziele
Im idealen Fall sollten Entwickler überall und mit jeder Art von Nachweis problemlos auf benutzerdefinierte AI-Inferenzdienste zugreifen können, ohne nennenswerte Hindernisse im Integrationsprozess. Das Inferenznetzwerk bietet alle grundlegenden Unterstützungen, die Entwickler benötigen, einschließlich bedarfsorientierter Generierung und Validierung von Nachweisen, Durchführung von Inferenzberechnungen, Relay und Validierung von Inferenzdaten, Bereitstellung von Schnittstellen für Web2 und Web3, Ein-Klick-Modellbereitstellung, Systemüberwachung, Cross-Chain-Operationen, synchrone Integration und zeitgesteuerte Ausführung.
Mit diesen Funktionen können Entwickler Inferenzdienste nahtlos in ihre bestehenden Smart Contracts integrieren. Beispielsweise nutzen diese Bots beim Erstellen von DeFi-Handelsrobotern maschinenlernende Modelle, um den besten Zeitpunkt für den Kauf und Verkauf bestimmter Handelspaare zu finden und entsprechende Handelsstrategien auf der zugrunde liegenden Handelsplattform auszuführen.
Im völlig idealen Zustand sind alle Infrastrukturen cloudbasiert. Entwickler müssen ihre Handelsstrategiemodelle nur in einem gängigen Format wie Torch hochladen, und das Inferenznetzwerk speichert sie und bietet Modelle für Web2- und Web3-Abfragen an.
Sobald alle Schritte zur Bereitstellung des Modells abgeschlossen sind, können Entwickler die Modellinferenz direkt über die Web3-API oder Smart Contracts aufrufen. Das Inferenznetzwerk wird diese Handelsstrategien weiterhin ausführen und die Ergebnisse an den zugrunde liegenden Smart Contract zurückmelden. Wenn die von den Entwicklern verwalteten Gemeinschaftsvermögen groß sind, muss auch eine Überprüfung der Inferenzresultate bereitgestellt werden. Sobald die Inferenzresultate empfangen werden, führt der Smart Contract basierend auf diesen Ergebnissen den Handel durch.
3.1.1 Asynchron und synchron
Theoretisch können asynchrone Ausführungen von Inferenzoperationen eine bessere Leistungsfähigkeit bringen; jedoch kann dieses Verfahren in der Entwicklererfahrung unpraktisch sein. Bei der Verwendung des asynchronen Ansatzes müssen Entwickler die Aufgabe zuerst im intelligenten Vertrag des Inferenznetzwerks einreichen. Wenn die Inferenzaufgabe abgeschlossen ist, gibt der intelligente Vertrag des Inferenznetzwerks die Ergebnisse zurück. In diesem Programmiermodell wird die Logik in zwei Teile unterteilt: die Inferenzaufrufe und die Verarbeitung der Inferenzresultate.
Wenn Entwickler verschachtelte Inferenzaufrufe und eine große Menge an Steuerlogik haben, wird die Situation noch schwieriger.
Das asynchrone Programmiermodell erschwert die Integration mit bestehenden intelligenten Verträgen. Dies erfordert von den Entwicklern, eine große Menge an zusätzlichem Code zu schreiben und Fehler zu behandeln sowie Abhängigkeiten zu verwalten. Im Gegensatz dazu ist die synchrone Programmierung für Entwickler intuitiver, bringt jedoch Probleme bei der Reaktionszeit und dem Design der Blockchain mit sich. Zum Beispiel, wenn die Eingabedaten die Blockzeit oder Preise sind, die schnell schwanken, dann sind die Daten nach Abschluss der Inferenz nicht mehr aktuell, was dazu führen kann, dass die Ausführung des intelligenten Vertrags in bestimmten Fällen zurückgerollt werden muss. Stellen Sie sich vor, Sie handeln mit einem veralteten Preis.
Agentennetzwerke ermöglichen es Nutzern, Agenten einfach anzupassen. Solche Netzwerke bestehen aus Entitäten oder intelligenten Verträgen, die Aufgaben autonom ausführen, sich gegenseitig austauschen und mit Blockchain-Netzwerken interagieren, alles ohne direkte menschliche Intervention. Sie sind hauptsächlich auf LLM-Technologien ausgerichtet. Zum Beispiel kann ein Chatbot bereitgestellt werden, der ein tiefes Verständnis für Ethereum hat. Derzeit sind die Werkzeuge für einen solchen Chatbot begrenzt, und die Entwickler können darauf basierend keine komplexen Anwendungen entwickeln.
In Zukunft wird das Agentennetzwerk den Agenten mehr Werkzeuge zur Verfügung stellen, nicht nur Wissen, sondern auch die Fähigkeit, externe APIs aufzurufen und bestimmte Aufgaben auszuführen. Entwickler werden in der Lage sein, mehrere Agenten zu verbinden, um Workflows zu erstellen. Zum Beispiel erfordert das Schreiben von Solidity-Smart Contracts mehrere spezialisierte Agenten, darunter Protokolldesign-Agenten, Solidity-Entwicklungs-Agenten, Code-Sicherheitsprüfungs-Agenten und Solidity-Bereitstellungs-Agenten.
Wir koordinieren die Zusammenarbeit dieser Agenten durch die Verwendung von Hinweisen und Szenarien. Beispiele für Agentennetzwerke sind Flock.ai, Myshell, Theoriq.
Empfehlung: Die meisten Funktionen heutiger Agenten sind relativ begrenzt. Für spezifische Anwendungsfälle können Web2-Agenten besser bedienen und verfügen über ausgereifte Orchestrierungstools wie Langchain, Llamaindex.
5. Unterschiede zwischen Agentennetzwerken und Inferenznetzwerken
Agentennetzwerke konzentrieren sich mehr auf LLM und bieten Tools wie Langchain an, um mehrere Agenten zu integrieren. In der Regel müssen Entwickler keine maschinenlernenden Modelle selbst entwickeln, da Agentennetzwerke den Prozess der Modellentwicklung und -bereitstellung vereinfacht haben. Sie müssen nur die notwendigen Agenten und Tools verbinden. In den meisten Fällen werden Endbenutzer diese Agenten direkt nutzen.
Das Inferenznetzwerk bildet die Infrastruktur für das Agentennetzwerk. Es bietet Entwicklern niedrigere Zugriffsebenen. Normalerweise verwenden Endbenutzer das Inferenznetzwerk nicht direkt. Entwickler müssen ihre eigenen Modelle bereitstellen, die nicht auf LLM beschränkt sind, und sie können diese über off-chain oder on-chain Zugangspunkte nutzen. Agentennetzwerke und Inferenznetzwerke sind keine völlig unabhängigen Produkte. Wir haben bereits begonnen, einige vertikal integrierte Produkte zu sehen. Da beide Funktionen auf ähnlicher Infrastruktur basieren, bieten sie gleichzeitig Agenten- und Inferenzfähigkeiten an.
6. Neue Chancen
Neben der Modulinferenz, dem Training und dem Agentennetzwerk gibt es im Web3-Bereich viele neue Bereiche, die es wert sind, erkundet zu werden:
Datensatz: Wie kann Blockchain-Daten in maschinenlernfähige Datensätze umgewandelt werden? Maschinenlern-Entwickler benötigen spezifischere und themenspezifische Daten. Zum Beispiel bietet Giza hochwertige Datensätze zu DeFi, die speziell für das Training von Maschinenlernmodellen gedacht sind. Ideale Daten sollten nicht nur einfache tabellarische Daten umfassen, sondern auch graphische Daten, die die Interaktionen in der Blockchain-Welt beschreiben können. In dieser Hinsicht haben wir noch Defizite. Derzeit versuchen einige Projekte, dieses Problem zu lösen, indem sie Einzelpersonen belohnen, die neue Datensätze erstellen, wie Bagel und Sahara, die den Schutz der Privatsphäre persönlicher Daten versprechen.
Modellspeicherung: Einige Modelle sind sehr groß, und es ist entscheidend, wie man diese Modelle speichert, verteilt und versioniert, da dies die Leistung und Kosten des maschinenbasierten Lernens auf der Kette beeinflusst. In diesem Bereich haben Pionierprojekte wie Filecoin, AR und 0g bereits Fortschritte gemacht.
Modelltraining: Verteiltes und überprüfbares Modelltraining ist eine Herausforderung. Gensyn, Bittensor, Flock und Allora haben bereits signifikante Fortschritte gemacht. Überwachung: Da die Modellinferenz sowohl on-chain als auch off-chain erfolgt, benötigen wir eine neue Infrastruktur, um Web3-Entwicklern zu helfen, den Einsatz von Modellen zu verfolgen und potenzielle Probleme und Verzerrungen rechtzeitig zu erkennen. Mit den richtigen Überwachungstools können Web3-Maschinenlernentwickler rechtzeitig Anpassungen vornehmen und die Modellgenauigkeit kontinuierlich optimieren.
RAG-Infrastruktur: Dezentrales RAG benötigt eine neue Infrastrukturumgebung mit hohen Anforderungen an Speicherung, Einbettungsberechnung und Vektor-Datenbanken, während die Datensicherheit gewährleistet werden muss. Dies unterscheidet sich stark von der derzeitigen Web3-AI-Infrastruktur, die meist auf Dritte für RAG angewiesen ist, wie Firstbatch und Bagel.
Für Web3 angepasste Modelle: Nicht alle Modelle sind für Web3-Szenarien geeignet. In den meisten Fällen muss das Modell neu trainiert werden, um spezifische Anwendungen wie Preisvorhersagen oder Empfehlungen zu unterstützen. Mit dem Aufschwung der AI-Infrastruktur erwarten wir in Zukunft mehr web3-native Modelle, die AI-Anwendungen bedienen. Beispielsweise entwickelt Pond ein Blockchain-GNN für Preisvorhersagen, Empfehlungen, Betrugserkennung und Geldwäschebekämpfung in verschiedenen Szenarien.
Bewertungsnetzwerke: Es ist schwierig, Agenten ohne menschliches Feedback zu bewerten. Mit der Verbreitung von Agentenentwicklungstools werden unzählige Agenten auf dem Markt erscheinen. Daher ist ein System erforderlich, das die Fähigkeiten dieser Agenten zeigt und den Nutzern hilft zu beurteilen, welcher Agent in bestimmten Situationen am besten abschneidet. Zum Beispiel ist Neuronets ein Akteur in diesem Bereich.
Konsensmechanismus: Für AI-Aufgaben ist PoS nicht unbedingt die beste Wahl. Die Berechnungskomplexität, die Schwierigkeiten bei der Validierung und das Fehlen von Determinismus sind die Hauptprobleme, mit denen PoS konfrontiert ist. Bittensor hat einen neuen intelligenten Konsensmechanismus geschaffen, der Knoten im Netzwerk belohnt, die zu Maschinenlernmodellen und -ausgaben beitragen.
7. Zukunftsausblick
Wir beobachten derzeit einen Trend zur vertikalen Integration. Durch den Aufbau einer grundlegenden Berechnungsebene kann das Netzwerk verschiedene Maschinenlernaufgaben unterstützen, einschließlich Training, Inferenz und Agentennetzwerkdienste. Dieses Modell zielt darauf ab, Web3-Maschinenlernentwicklern eine umfassende One-Stop-Lösung anzubieten. Derzeit ist die On-Chain-Inferenz zwar kostspielig und langsam, bietet aber eine hervorragende Überprüfbarkeit und nahtlose Integration mit Backend-Systemen (z. B. Smart Contracts). Ich glaube, die Zukunft wird in Richtung hybrider Anwendungen gehen. Ein Teil der Inferenzverarbeitung wird im Frontend oder Off-Chain erfolgen, während die entscheidenden und richtungsweisenden Inferenzprozesse On-Chain stattfinden werden. Dieses Modell wird bereits auf mobilen Geräten angewendet. Durch die Nutzung der spezifischen Merkmale mobiler Geräte kann es lokal schnell kleine Modelle ausführen und komplexere Aufgaben in die Cloud verlagern, um größere LLMs zu verarbeiten.