Lesen, Indizieren bis zur Analyse, eine kurze Einführung in die Web3-Datenindizierungsspur

1 Einleitung
Haben wir, angefangen bei der ersten Welle der dApps Etherroll, ETHLend und CryptoKitties im Jahr 2017, bis hin zur Verbreitung verschiedener Finanz-, Gaming- und sozialer dApps, die heute auf verschiedenen Blockchains basieren, jemals darüber nachgedacht? Sind die Quellen verschiedener Daten, die diese dApps bei ihren Interaktionen verwenden?
Im Jahr 2024 liegt der Fokus auf KI und Web3. In der Welt der künstlichen Intelligenz sind Daten wie die Quelle des Lebens für dessen Wachstum und Entwicklung. So wie Pflanzen zum Gedeihen auf Sonnenlicht und Feuchtigkeit angewiesen sind, sind auch KI-Systeme auf riesige Datenmengen angewiesen, um kontinuierlich zu „lernen“ und zu „denken“. Ohne Daten sind KI-Algorithmen, egal wie ausgefeilt sie sind, nichts weiter als Luftschlösser, die nicht in der Lage sind, ihre angemessene Intelligenz und Wirksamkeit zu entfalten.
Dieser Artikel bietet eine eingehende Analyse der Entwicklung der Blockchain-Datenindizierung während der Entwicklung der Branche aus der Perspektive der Blockchain-Datenzugänglichkeit (Data Accessibility) und vergleicht das alte Datenindexprotokoll The Graph mit dem aufkommenden Blockchain-Datendienstprotokoll Chainbase und Raum und Zeit, wobei insbesondere die Ähnlichkeiten und Unterschiede in den Datendiensten und Produktarchitekturmerkmalen dieser beiden neuen Protokolle untersucht werden, die KI-Technologie kombinieren.
2 Komplexität und Einfachheit des Datenindex: vom Blockchain-Knoten zur Full-Chain-Datenbank
2.1 Datenquelle: Blockchain-Knoten
Von Anfang an, wenn wir verstehen, was Blockchain ist, sehen wir oft diesen Satz: Blockchain ist ein dezentrales Buchhaltungsbuch. Blockchain-Knoten bilden die Grundlage des gesamten Blockchain-Netzwerks und sind für die Aufzeichnung, Speicherung und Verbreitung aller Transaktionsdaten in der Kette verantwortlich. Jeder Knoten verfügt über eine vollständige Kopie der Blockchain-Daten, wodurch sichergestellt wird, dass der dezentrale Charakter des Netzwerks gewahrt bleibt. Allerdings ist es für normale Benutzer nicht einfach, einen Blockchain-Knoten aufzubauen und zu warten. Dies erfordert nicht nur professionelle technische Fähigkeiten, sondern ist auch mit hohen Hardware- und Bandbreitenkosten verbunden. Gleichzeitig verfügen normale Knoten über begrenzte Abfragefunktionen und können keine Daten in dem von Entwicklern geforderten Format abfragen. Während also theoretisch jeder seinen eigenen Knoten betreiben kann, greifen Nutzer in der Praxis oft lieber auf Dienste von Drittanbietern zurück.
Um dieses Problem zu lösen, entstanden RPC-Knotenanbieter (Remote Procedure Call). Diese Anbieter sind für die Kosten und die Verwaltung der Knoten verantwortlich und stellen Daten über RPC-Endpunkte bereit. Dadurch können Benutzer problemlos auf Blockchain-Daten zugreifen, ohne eigene Knoten erstellen zu müssen. Öffentliche RPC-Endpunkte sind kostenlos, unterliegen jedoch Ratenbegrenzungen, die sich negativ auf das Benutzererlebnis der dApp auswirken können. Private RPC-Endpunkte bieten eine bessere Leistung durch Reduzierung der Überlastung, aber selbst der einfache Datenabruf erfordert viel Hin- und Her-Kommunikation. Dies macht sie anforderungsintensiv und bei komplexen Datenabfragen ineffizient. Darüber hinaus sind private RPC-Endpunkte oft schwer zu skalieren und nicht mit verschiedenen Netzwerken kompatibel. Die standardisierte API-Schnittstelle des Knotenanbieters bietet Benutzern jedoch eine niedrigere Schwelle für den Zugriff auf Daten in der Kette und legt damit den Grundstein für die anschließende Datenanalyse und -anwendung.
2.2 Datenanalyse: von Prototypendaten zu nutzbaren Daten
Bei den von Blockchain-Knoten erhaltenen Daten handelt es sich häufig um verschlüsselte und kodierte Rohdaten. Obwohl diese Daten die Integrität und Sicherheit der Blockchain bewahren, erhöht ihre Komplexität auch die Schwierigkeit der Datenanalyse. Für normale Benutzer oder Entwickler erfordert die direkte Verarbeitung dieser Prototypdaten viel technisches Wissen und Rechenressourcen.
Der Prozess der Datenanalyse ist in diesem Zusammenhang besonders wichtig. Durch das Parsen komplexer Prototypdaten in ein Format, das einfacher zu verstehen und zu bedienen ist, können Benutzer die Daten intuitiver verstehen und nutzen. Der Erfolg der Datenanalyse bestimmt direkt die Effizienz und Wirkung der Blockchain-Datenanwendung und ist ein wichtiger Schritt im gesamten Datenindexierungsprozess.
2.3 Entwicklung von Datenindexern
Mit zunehmender Menge an Blockchain-Daten steigt auch der Bedarf an Datenindexern. Indexer spielen eine wichtige Rolle bei der Organisation von On-Chain-Daten und deren Übermittlung an die Datenbank zur einfachen Abfrage. Indexer funktionieren, indem sie Blockchain-Daten indizieren und sie über eine SQL-ähnliche Abfragesprache (APIs wie GraphQL) leicht verfügbar machen. Durch die Bereitstellung einer einheitlichen Schnittstelle zum Abfragen von Daten ermöglichen Indexer Entwicklern das schnelle und genaue Abrufen der erforderlichen Informationen mithilfe einer standardisierten Abfragesprache, was den Prozess erheblich vereinfacht.
Verschiedene Arten von Indexern optimieren den Datenabruf auf unterschiedliche Weise:
Vollständige Node-Indexer: Diese Indexer betreiben vollständige Blockchain-Knoten und rufen Daten direkt von ihnen ab, um sicherzustellen, dass die Daten vollständig und korrekt sind, erfordern jedoch erhebliche Speicher- und Verarbeitungsleistung.
Leichte Indexer: Diese Indexer verlassen sich auf vollständige Knoten, um bestimmte Daten bei Bedarf abzurufen, was den Speicherbedarf reduziert, aber möglicherweise die Abfragezeiten verlängert.
Spezialisierte Indexer: Diese Indexer sind auf bestimmte Datentypen oder bestimmte Blockchains spezialisiert und optimieren den Abruf für bestimmte Anwendungsfälle, wie z. B. NFT-Daten oder DeFi-Transaktionen.
Aggregierte Indexer: Diese Indexer ziehen Daten aus mehreren Blockchains und Quellen, einschließlich Off-Chain-Informationen, und stellen eine einheitliche Abfrageschnittstelle bereit, die besonders für Multi-Chain-dApps nützlich ist.
Derzeit belegt der Archivmodus des Ethereum Archive Node im Geth-Client etwa 13,5 TB Speicherplatz, während der Archivbedarf beim Erigon-Client etwa 3 TB beträgt. Da die Blockchain weiter wächst, wird auch die Menge der Datenspeicherung in Archivknoten zunehmen. Angesichts einer so großen Datenmenge unterstützen gängige Indexierungsprotokolle nicht nur die Multi-Chain-Indizierung, sondern passen auch das Datenanalyse-Framework an die Datenanforderungen verschiedener Anwendungen an. Ein typischer Fall ist beispielsweise das „Subgraph“-Framework von The Graph.
Das Aufkommen von Indexern hat die Effizienz der Datenindizierung und -abfrage erheblich verbessert. Indexer können im Vergleich zu herkömmlichen RPC-Endpunkten große Datenmengen effizient indizieren und Hochgeschwindigkeitsabfragen unterstützen. Mit diesen Indexern können Benutzer komplexe Abfragen durchführen, Daten einfach filtern und nach der Extraktion analysieren. Darüber hinaus unterstützen einige Indexer auch die Aggregation von Datenquellen aus mehreren Blockchains, wodurch das Problem der Bereitstellung mehrerer APIs in Multi-Chain-dApps vermieden wird. Durch die verteilte Ausführung auf mehreren Knoten bietet der Indexer nicht nur mehr Sicherheit und Leistung, sondern verringert auch das Risiko von Störungen und Ausfallzeiten, die mit einem zentralisierten RPC-Anbieter einhergehen können.
Im Gegensatz dazu verwendet der Indexer eine vordefinierte Abfragesprache, damit Benutzer die erforderlichen Informationen direkt abrufen können, ohne die zugrunde liegenden komplexen Daten verarbeiten zu müssen. Dieser Mechanismus verbessert die Effizienz und Zuverlässigkeit des Datenabrufs erheblich und ist eine wichtige Innovation im Blockchain-Datenzugriff.
2.4 Vollständige Datenbank: Stream-First-Ausrichtung
Das Abfragen von Daten mithilfe von Indexknoten bedeutet häufig, dass die API zum einzigen Portal für die Verarbeitung von Daten in der Kette wird. Geht ein Projekt jedoch in die Ausbauphase, werden oft flexiblere Datenquellen benötigt, die standardisierte APIs nicht bieten können. Da die Anwendungsanforderungen immer komplexer werden, sind Primärdatenindexer und ihre standardisierten Indexformate nach und nach nicht mehr in der Lage, immer vielfältigere Abfrageanforderungen wie Suche, kettenübergreifenden Zugriff oder Off-Chain-Datenzuordnung zu erfüllen.
In modernen Datenpipeline-Architekturen hat sich ein „Stream-First“-Ansatz als Lösung für die Einschränkungen der herkömmlichen Stapelverarbeitung herausgebildet, der die Aufnahme, Verarbeitung und Analyse von Daten in Echtzeit ermöglicht. Dieser Paradigmenwechsel ermöglicht es Unternehmen, sofort auf eingehende Daten zu reagieren, was zu nahezu sofortigen Erkenntnissen und Entscheidungen führt. In ähnlicher Weise geht die Entwicklung von Blockchain-Datendienstanbietern auch in Richtung des Aufbaus von Blockchain-Datenströmen. Traditionelle Indexdienstanbieter haben nach und nach Produkte auf den Markt gebracht, die Echtzeit-Blockchain-Daten in Form eines Datenstroms erhalten, wie z. B. The Graph's Substreams und Goldsky's Mirror und andere Echtzeit-Datenseen wie Chainbase und SubSquid, die Datenströme basierend auf der Blockchain generieren.
Diese Dienste sind darauf ausgelegt, den Bedarf an Echtzeit-Analyse von Blockchain-Transaktionen und umfassenderen Abfragefunktionen zu decken. So wie die „Stream-First“-Architektur die Art und Weise, wie Daten in herkömmlichen Datenpipelines verarbeitet und genutzt werden, durch Reduzierung der Latenz und Verbesserung der Reaktionsfähigkeit revolutioniert, hoffen diese Anbieter von Blockchain-Daten-Streaming-Diensten auch, die Entwicklung von Anwendungen und Anwendungen durch fortschrittlichere und ausgereiftere Datenquellen stärker zu unterstützen Unterstützung bei der On-Chain-Datenanalyse.
Durch die Neudefinition der Herausforderungen von On-Chain-Daten durch die Linse moderner Datenpipelines können wir das volle Potenzial der Verwaltung, Speicherung und Bereitstellung von On-Chain-Daten aus einer völlig neuen Perspektive sehen. Wenn wir uns Indexer wie Subgraphs und Ethereum ETL als Datenflüsse in einer Datenpipeline und nicht als Endausgabe vorstellen, können wir uns eine mögliche Welt vorstellen, in der Hochleistungsdatensätze auf jeden Geschäftsanwendungsfall zugeschnitten werden können.
3 KI + Datenbank? Ausführlicher Vergleich: Graph, Chainbase, Raum und Zeit
3.1 Der Graph
Das Graph-Netzwerk implementiert Multi-Chain-Datenindizierungs- und Abfragedienste über ein dezentrales Knotennetzwerk, sodass Entwickler problemlos Blockchain-Daten indizieren und dezentrale Anwendungen erstellen können. Seine Hauptproduktmodelle sind der Datenabfrage-Ausführungsmarkt und der Datenindex-Caching-Markt. Diese beiden Märkte dienen im Wesentlichen den Produktabfrageanforderungen der Benutzer. Der Datenabfrage-Ausführungsmarkt bezieht sich insbesondere auf die Auswahl des geeigneten Anbieters für die erforderlichen Daten der Daten werden bezahlt, und der Datenindex-Cache-Markt ist ein Markt, in dem die Indexknoten Ressourcen basierend auf der historischen Indexierungspopularität des Untergraphen, den berechneten Abfragegebühren und den Anforderungen der On-Chain-Kuratoren für die Untergraphenausgabe mobilisieren .
Untergraphen sind die grundlegende Datenstruktur im Graph-Netzwerk. Sie definieren, wie Daten aus der Blockchain extrahiert und in ein abfragbares Format (z. B. ein GraphQL-Schema) umgewandelt werden. Jeder kann Untergraphen erstellen und mehrere Anwendungen können diese Untergraphen wiederverwenden, was die Wiederverwendbarkeit und Nutzungseffizienz der Daten verbessert.
Die Graph-Produktstruktur (Quelle: The Graph Whitepaper)
Das Graph-Netzwerk besteht aus vier Schlüsselrollen: Indexern, Kuratoren, Delegierten und Entwicklern, die zusammenarbeiten, um Web3-Anwendungen zu betreiben. Zu ihren jeweiligen Aufgaben gehören:
Indexer: Indexer ist ein Knotenbetreiber im The Graph-Netzwerk. Indexknoten nehmen am Netzwerk teil, indem sie GRT (das native Token von The Graph) einsetzen, um Indexierungs- und Abfrageverarbeitungsdienste bereitzustellen.
Delegierer: Delegatoren sind Benutzer, die GRT-Token an Indexknoten abstecken, um ihre Operationen zu unterstützen. Delegierende erhalten einen Teil der Belohnungen über die Inodes, an die sie delegieren.
Kurator: Der Kurator ist dafür verantwortlich, zu signalisieren, welche Untergraphen vom Netzwerk indiziert werden sollen. Kuratoren tragen dazu bei, dass wertvolle Nebenhandlungen Vorrang haben.
Entwickler: Im Gegensatz zu den ersten drei, die die Angebotsseite bilden, sind die Entwickler die Nachfrageseite und die Hauptnutzer von The Graph. Sie erstellen und übermitteln Untergraphen an das Graph-Netzwerk und warten darauf, dass das Netzwerk die Nachfragedaten befriedigt.
Derzeit ist The Graph auf einen umfassenden dezentralen Subgraph-Hosting-Dienst umgestiegen, und es kursieren wirtschaftliche Anreize zwischen verschiedenen Teilnehmern, um den Betrieb des Systems sicherzustellen:
Indexknoten-Belohnungen: Indexknoten erzielen Einnahmen durch Verbraucherabfragegebühren und einen Teil der GRT-Token-Block-Belohnung.
Belohnungen für Delegatoren: Delegatoren erhalten einen Teil der Belohnungen über die von ihnen unterstützten Inodes.
Belohnungen für Kuratoren: Wenn Kuratoren wertvolle Untergraphen melden, können sie teilweise Belohnungen aus Abfragegebühren erhalten.
Tatsächlich entwickeln sich auch die Produkte von The Graph im Zuge der KI-Welle rasant weiter. Als eines der Kernentwicklungsteams des The Graph-Ökosystems hat sich Semiotic Labs dem Einsatz von KI-Technologie verschrieben, um die Indexpreise und das Benutzerabfrageerlebnis zu optimieren. Derzeit verbessern die von Semiotic Labs entwickelten Tools AutoAgora, Allocation Optimizer und AgentC jeweils die Leistung des Ökosystems in mehreren Aspekten.
AutoAgora führt einen dynamischen Preismechanismus ein, um Preise in Echtzeit basierend auf dem Abfragevolumen und der Ressourcennutzung anzupassen, Preisstrategien zu optimieren und die Wettbewerbsfähigkeit und Umsatzmaximierung des Indexierers sicherzustellen.
Allocation Optimizer löst das komplexe Problem der Subgraph-Ressourcenzuteilung und hilft Indexierern, eine optimale Ressourcenzuteilung zu erreichen, um Umsatz und Leistung zu verbessern.
AgentC ist ein experimentelles Tool, das die Benutzererfahrung verbessert, indem es Benutzern den Zugriff auf die Blockchain-Daten von The Graph über natürliche Sprache ermöglicht.
Der Einsatz dieser Tools ermöglicht es The Graph, die Intelligenz und Benutzerfreundlichkeit des Systems mit KI-Unterstützung weiter zu verbessern.
3.2 Kettenbasis
Chainbase ist ein Full-Chain-Datennetzwerk, das alle Blockchain-Daten in einer Plattform integriert und es Entwicklern so erleichtert, Anwendungen zu erstellen und zu warten. Zu seinen einzigartigen Merkmalen gehören:
Echtzeit-Datensee: Chainbase bietet einen Echtzeit-Datensee speziell für das Blockchain-Datenstreaming, sodass Daten sofort bei ihrer Generierung zugänglich sind.
Dual-Chain-Architektur: Chainbase baut eine Ausführungsschicht basierend auf Eigenlayer AVS auf, um mit dem Konsensalgorithmus von CometBFT eine parallele Dual-Chain-Architektur zu bilden. Dieses Design verbessert die Programmierbarkeit und Zusammensetzbarkeit kettenübergreifender Daten, unterstützt hohen Durchsatz, geringe Latenz und Endgültigkeit und verbessert die Netzwerksicherheit durch ein Modell mit doppelter Sicherheit.
Innovativer Datenformatstandard: Chainbase hat einen neuen Datenformatstandard namens „Manuskripte“ eingeführt, um die Art und Weise zu optimieren, wie Daten in der Kryptoindustrie strukturiert und genutzt werden.
Cryptoworld-Modell: Chainbase nutzt seine umfangreichen Blockchain-Datenressourcen und kombiniert KI-Modelltechnologie, um KI-Modelle zu erstellen, die Blockchain-Transaktionen effektiv verstehen, vorhersagen und mit ihnen interagieren können. Das Basismodell Theia ist jetzt für die öffentliche Nutzung verfügbar.
Durch diese Funktionen hebt sich Chainbase von den Blockchain-Indexierungsprotokollen ab, wobei der Schwerpunkt auf der Zugänglichkeit von Echtzeitdaten, innovativen Datenformaten und der Erstellung intelligenterer Modelle für verbesserte Erkenntnisse durch die Kombination von On-Chain- und Off-Chain-Daten liegt.
Das KI-Modell Theia von Chainbase ist ein wichtiges Highlight, das es von anderen Datendienstprotokollen unterscheidet. Theia basiert auf dem von NVIDIA entwickelten DORA-Modell, kombiniert On-Chain- und Off-Chain-Daten sowie räumlich-zeitliche Aktivitäten, lernt und analysiert Verschlüsselungsmuster und reagiert durch kausales Denken, wodurch der potenzielle Wert und die Muster von On eingehend untersucht werden -Kettendaten und Bereitstellung intelligenterer Datendienste für Benutzer.
KI-gestützte Datendienste machen Chainbase nicht mehr nur zu einer Blockchain-Datendienstplattform, sondern zu einem wettbewerbsfähigeren Anbieter intelligenter Datendienste. Durch leistungsstarke Datenressourcen und proaktive KI-Analysen ist Chainbase in der Lage, umfassendere Dateneinblicke bereitzustellen und die Datenverarbeitungsprozesse der Benutzer zu optimieren.
3.3 Raum und Zeit
Space and Time (SxT) zielt darauf ab, eine überprüfbare Computerschicht zu schaffen, die wissensfreie Beweise auf dezentralen Data Warehouses erweitert, um eine vertrauenswürdige Datenverarbeitung für intelligente Verträge, große Sprachmodelle und Unternehmen bereitzustellen. Space and Time hat in seiner jüngsten Finanzierungsrunde der Serie A, angeführt von Framework Ventures, Lightspeed Faction, Arrington Capital und Hivemind Capital, 20 Millionen US-Dollar eingesammelt.
Im Bereich der Datenindizierung und -validierung führt Space and Time einen neuen technischen Weg ein – Proof of SQL. Hierbei handelt es sich um eine innovative Zero-Knowledge-Proof-Technologie (ZKP), die von Space and Time entwickelt wurde und sicherstellt, dass SQL-Abfragen, die in einem dezentralen Data Warehouse ausgeführt werden, manipulationssicher und überprüfbar sind. Wenn eine Abfrage ausgeführt wird, generiert Proof of SQL einen kryptografischen Beweis, der die Integrität und Genauigkeit der Abfrageergebnisse überprüft. Dieser Nachweis wird dem Abfrageergebnis beigefügt, sodass jeder Prüfer (z. B. ein Smart Contract usw.) unabhängig bestätigen kann, dass die Daten während der Verarbeitung nicht manipuliert wurden. Herkömmliche Blockchain-Netzwerke stützen sich in der Regel auf Konsensmechanismen, um die Authentizität von Daten zu überprüfen, während Proof of SQL von Space and Time eine effizientere Methode zur Datenüberprüfung implementiert. Konkret ist im System von Space and Time ein Knoten für die Datenerfassung verantwortlich, während andere Knoten die Authentizität der Daten mithilfe der zk-Technologie überprüfen. Diese Methode ändert den Ressourcenverbrauch mehrerer Knoten, die wiederholt dieselben Daten im Rahmen des Konsensmechanismus indizieren, bis schließlich ein Konsens zum Erhalten der Daten erzielt wird, und verbessert die Gesamtleistung des Systems. Mit zunehmender Reife dieser Technologie bildet sie ein Sprungbrett für eine Reihe traditioneller Branchen, die sich auf Datenzuverlässigkeit konzentrieren, um datenstrukturierte Produkte auf der Blockchain zu verwenden.
Gleichzeitig arbeitet SxT eng mit dem Microsoft AI Joint Innovation Lab zusammen, um die Entwicklung generativer KI-Tools zu beschleunigen, um Benutzern die Verarbeitung von Blockchain-Daten in natürlicher Sprache zu erleichtern. Derzeit können Benutzer in Space and Time Studio die Eingabe von Abfragen in natürlicher Sprache erleben, und die KI konvertiert diese automatisch in SQL und führt Abfrageanweisungen im Namen des Benutzers aus, um die endgültigen Ergebnisse zu präsentieren, die der Benutzer benötigt.
3.4 Differenzvergleich
Fazit und Ausblick
Zusammenfassend lässt sich sagen, dass die Blockchain-Datenindizierungstechnologie einen schrittweisen Verbesserungsprozess durchlaufen hat, von der ursprünglichen Quelle der Knotendaten über die Entwicklung von Datenanalyse und Indexierern bis hin zu KI-gestützten Datendiensten für die gesamte Kette. Die kontinuierliche Weiterentwicklung dieser Technologien verbessert nicht nur die Effizienz und Genauigkeit des Datenzugriffs, sondern bietet den Benutzern auch ein beispielloses intelligentes Erlebnis.
Mit Blick auf die Zukunft werden Blockchain-Datendienste mit der kontinuierlichen Entwicklung neuer Technologien wie KI-Technologie und wissensfreiem Nachweis immer intelligenter und sicherer. Wir haben Grund zu der Annahme, dass Blockchain-Datendienste auch in Zukunft eine wichtige Rolle als Infrastruktur spielen und den Fortschritt und die Innovation der Branche stark unterstützen werden.
Lesen, Indizieren bis zur Analyse, eine kurze Einführung in die Web3-Datenindizierungsspur

Weitere Inhalte des Erstellers entdecken

Aktuelle Nachrichten