1 Introduction

Depuis la première vague de dApps Etheroll, ETHLend et CryptoKitties en 2017, jusqu'à la prolifération de diverses dApps financières, de jeux et sociales basées sur différentes blockchains aujourd'hui, quand nous parlons d'applications décentralisées en chaîne, y avons-nous déjà pensé ? les sources des différentes données sont-elles utilisées par ces dApps dans leurs interactions ?

En 2024, l’accent sera mis sur l’IA et le Web3. Dans le monde de l’intelligence artificielle, les données sont comme la source de vie pour leur croissance et leur évolution. Tout comme les plantes dépendent de la lumière du soleil et de l’humidité pour prospérer, les systèmes d’IA s’appuient également sur d’énormes quantités de données pour « apprendre » et « réfléchir » en permanence. Sans données, les algorithmes d’IA, aussi sophistiqués soient-ils, ne sont rien d’autre que des châteaux en l’air, incapables d’exercer toute l’intelligence et l’efficacité qui leur sont dues.

Cet article fournit une analyse approfondie de l'évolution de l'indexation des données blockchain au cours du développement de l'industrie du point de vue de l'accessibilité des données blockchain (Data Accessibility), et compare l'ancien protocole d'indexation des données The Graph avec le nouveau protocole de service de données blockchain Chainbase. et Espace et Temps, explorant spécifiquement les similitudes et les différences dans les services de données et les fonctionnalités d'architecture de produits de ces deux nouveaux protocoles qui combinent la technologie de l'IA.

2 Complexité et simplicité de l'index de données : du nœud blockchain à la base de données complète

2.1 Source de données : nœud blockchain

Dès le début de la compréhension de « qu'est-ce que la blockchain », on voit souvent cette phrase : la blockchain est un livre comptable décentralisé. Les nœuds blockchain constituent la base de l’ensemble du réseau blockchain et sont responsables de l’enregistrement, du stockage et de la diffusion de toutes les données de transaction sur la chaîne. Chaque nœud dispose d'une copie complète des données de la blockchain, garantissant ainsi le maintien de la nature décentralisée du réseau. Cependant, il n’est pas facile pour les utilisateurs ordinaires de créer et de maintenir un nœud blockchain. Cela nécessite non seulement des compétences techniques professionnelles, mais entraîne également des coûts élevés en matériel et en bande passante. Dans le même temps, les nœuds ordinaires ont des capacités de requête limitées et ne peuvent pas interroger les données dans le format requis par les développeurs. Ainsi, alors qu’en théorie tout le monde peut exécuter son propre nœud, en pratique, les utilisateurs préfèrent souvent s’appuyer sur des services tiers.

Pour résoudre ce problème, des fournisseurs de nœuds RPC (appel de procédure à distance) ont vu le jour. Ces fournisseurs sont responsables du coût et de la gestion des nœuds et fournissent des données via les points de terminaison RPC. Cela permet aux utilisateurs d'accéder facilement aux données de la blockchain sans créer leurs propres nœuds. Les points de terminaison RPC publics sont gratuits mais sont soumis à des limites de débit qui peuvent avoir un impact négatif sur l'expérience utilisateur de la dApp. Les points de terminaison RPC privés offrent de meilleures performances en réduisant la congestion, mais même une simple récupération de données nécessite de nombreuses communications aller-retour. Cela les rend lourds de requêtes et inefficaces pour les requêtes de données complexes. De plus, les points de terminaison RPC privés sont souvent difficiles à faire évoluer et manquent de compatibilité entre les différents réseaux. Cependant, l'interface API standardisée du fournisseur de nœuds offre aux utilisateurs un seuil d'accès aux données sur la chaîne plus bas, jetant ainsi les bases d'une analyse et d'une application ultérieures des données.

2.2 Analyse des données : des données prototypes aux données exploitables

Les données obtenues à partir des nœuds blockchain sont souvent des données brutes cryptées et codées. Bien que ces données conservent l’intégrité et la sécurité de la blockchain, leur complexité augmente également la difficulté de l’analyse des données. Pour les utilisateurs ou développeurs ordinaires, traiter directement ces données prototypes nécessite beaucoup de connaissances techniques et de ressources informatiques.

Le processus d’analyse des données est particulièrement important dans ce contexte. En analysant des données prototypes complexes dans un format plus facile à comprendre et à utiliser, les utilisateurs peuvent comprendre et utiliser les données de manière plus intuitive. Le succès de l’analyse des données détermine directement l’efficacité et l’effet de l’application des données blockchain et constitue une étape clé dans l’ensemble du processus d’indexation des données.

2.3 Evolution des indexeurs de données

À mesure que la quantité de données blockchain augmente, le besoin d’indexeurs de données augmente également. Les indexeurs jouent un rôle essentiel dans l'organisation des données en chaîne et dans leur envoi à la base de données pour une interrogation facile. Les indexeurs fonctionnent en indexant les données de la blockchain et en les rendant facilement disponibles via un langage de requête de type SQL (API comme GraphQL). En fournissant une interface unifiée pour interroger les données, les indexeurs permettent aux développeurs de récupérer rapidement et précisément les informations dont ils ont besoin à l'aide d'un langage de requête standardisé, simplifiant ainsi considérablement le processus.

Différents types d'indexeurs optimisent la récupération des données de différentes manières :

  • Indexeurs de nœuds complets : ces indexeurs exécutent des nœuds blockchain complets et extraient les données directement de ceux-ci, garantissant que les données sont complètes et exactes, mais nécessitent une puissance de stockage et de traitement importante.

  • Indexeurs légers : ces indexeurs s'appuient sur des nœuds complets pour récupérer des données spécifiques à la demande, réduisant ainsi les besoins de stockage mais augmentant potentiellement les temps de requête.

  • Indexeurs spécialisés : ces indexeurs se spécialisent dans certains types de données ou dans des blockchains spécifiques, optimisant la récupération pour des cas d'utilisation spécifiques, tels que les données NFT ou les transactions DeFi.

  • Indexeurs agrégés : ces indexeurs extraient des données de plusieurs blockchains et sources, y compris des informations hors chaîne, fournissant une interface de requête unifiée particulièrement utile pour les dApps multi-chaînes.

Actuellement, le mode d'archivage du nœud d'archive Ethereum dans le client Geth occupe environ 13,5 To d'espace de stockage, tandis que sous le client Erigon, les besoins d'archivage sont d'environ 3 To. À mesure que la blockchain continue de croître, la quantité de données stockées dans les nœuds d’archives augmentera également. Face à une telle quantité de données, les protocoles d'indexation traditionnels prennent non seulement en charge l'indexation multi-chaînes, mais personnalisent également les cadres d'analyse des données en fonction des besoins en données des différentes applications. Par exemple, le framework « Subgraph » de The Graph est un cas typique.

L'émergence des indexeurs a considérablement amélioré l'efficacité de l'indexation et de l'interrogation des données. Les indexeurs peuvent indexer efficacement de grandes quantités de données et prendre en charge des requêtes à grande vitesse par rapport aux points de terminaison RPC traditionnels. Ces indexeurs permettent aux utilisateurs d'effectuer des requêtes complexes, de filtrer facilement les données et de les analyser après extraction. De plus, certains indexeurs prennent également en charge l'agrégation de sources de données provenant de plusieurs blockchains, évitant ainsi le problème du déploiement de plusieurs API dans des dApps multi-chaînes. En s'exécutant de manière distribuée sur plusieurs nœuds, l'indexeur offre non seulement une sécurité et des performances accrues, mais réduit également le risque de perturbation et de temps d'arrêt pouvant accompagner un fournisseur RPC centralisé.

En revanche, l'indexeur utilise un langage de requête prédéfini pour permettre aux utilisateurs d'obtenir directement les informations requises sans traiter les données complexes sous-jacentes. Ce mécanisme améliore considérablement l’efficacité et la fiabilité de la récupération des données et constitue une innovation importante dans l’accès aux données blockchain.

2.4 Base de données de chaîne complète : alignement en premier lieu

L'interrogation de données à l'aide de nœuds d'index signifie souvent que l'API devient le seul portail permettant d'assimiler les données en amont de la chaîne. Cependant, lorsqu'un projet entre dans la phase d'expansion, des sources de données plus flexibles sont souvent nécessaires, ce que les API standardisées ne peuvent pas fournir. À mesure que les exigences des applications deviennent plus complexes, les indexeurs de données primaires et leurs formats d'index standardisés sont progressivement incapables de répondre à des exigences de requêtes de plus en plus diverses, telles que la recherche, l'accès inter-chaînes ou le mappage de données hors chaîne.

Dans les architectures de pipeline de données modernes, une approche « axée sur le flux » est apparue comme une solution aux limites du traitement par lots traditionnel, permettant l'ingestion, le traitement et l'analyse des données en temps réel. Ce changement de paradigme permet aux organisations de réagir immédiatement aux données entrantes, ce qui se traduit par des informations et des décisions quasi instantanées. De même, le développement des fournisseurs de services de données blockchain évolue également dans le sens de la création de flux de données blockchain. Les fournisseurs de services d'indexation traditionnels ont successivement lancé des produits qui obtiennent des données blockchain en temps réel sous forme de flux de données, tels que The Graph's Substreams et Goldsky's Mirror. , et d'autres lacs de données en temps réel tels que Chainbase et SubSquid qui génèrent des flux de données basés sur la blockchain.

Ces services sont conçus pour répondre au besoin d'analyse en temps réel des transactions blockchain et de capacités de requête plus complètes. Tout comme l'architecture « stream-first » révolutionne la façon dont les données sont traitées et consommées dans les pipelines de données traditionnels en réduisant la latence et en améliorant la réactivité, ces fournisseurs de services de streaming de données blockchain espèrent également prendre en charge davantage grâce au développement d'applications et de sources de données plus avancées et plus matures. aider à l’analyse des données en chaîne.

Redéfinir les défis des données en chaîne à travers le prisme des pipelines de données modernes nous permet de voir tout le potentiel de la gestion, du stockage et du service des données en chaîne sous un tout nouveau point de vue. Lorsque nous commençons à considérer les indexeurs tels que les sous-graphes et Ethereum ETL comme des flux de données dans un pipeline de données plutôt que comme le résultat final, nous pouvons imaginer un monde possible dans lequel des ensembles de données hautes performances peuvent être adaptés à n'importe quel cas d'utilisation commerciale.

3 IA + Base de données ? Comparaison approfondie Le Graph, Chainbase, Space and Time

3.1 Le graphique

Le réseau Graph implémente des services d'indexation et de requête de données multi-chaînes via un réseau de nœuds décentralisé, permettant aux développeurs d'indexer facilement les données blockchain et de créer des applications décentralisées. Ses principaux modèles de produits sont le marché de l'exécution de requêtes de données et le marché de la mise en cache d'index de données. Ces deux marchés répondent essentiellement aux besoins des utilisateurs en matière de requêtes de données. Le marché de l'exécution de requêtes de données fait spécifiquement référence aux consommateurs qui choisissent le fournisseur approprié pour les données requises. des données sont payées, et le marché du cache d'index de données est un marché dans lequel les nœuds d'index mobilisent des ressources en fonction de la popularité d'indexation historique du sous-graphe, des frais de requête facturés et des besoins des conservateurs en chaîne pour la sortie du sous-graphe. .

Les sous-graphes constituent la structure de données de base du réseau The Graph. Ils définissent comment extraire et transformer les données de la blockchain dans un format interrogeable (comme un schéma GraphQL). N'importe qui peut créer des sous-graphiques, et plusieurs applications peuvent réutiliser ces sous-graphiques, ce qui améliore la réutilisabilité des données et l'efficacité de leur utilisation.

La structure du produit Graph (Source : Le livre blanc Graph)

Le réseau Graph se compose de quatre rôles clés : indexeurs, conservateurs, délégués et développeurs, qui travaillent ensemble pour alimenter les applications Web3. Voici leurs responsabilités respectives :

  • Indexeur : Indexer est un opérateur de nœuds dans le réseau The Graph. Les nœuds Index participent au réseau en jalonnant GRT (le jeton natif de The Graph) pour fournir des services d'indexation et de traitement des requêtes.

  • Délégant : les délégataires sont des utilisateurs qui mettent en jeu des jetons GRT sur des nœuds d'indexation pour prendre en charge leurs opérations. Les délégués gagnent une partie des récompenses via les inodes auxquels ils délèguent.

  • Conservateur : Le conservateur est chargé de signaler quels sous-graphes doivent être indexés par le réseau. Les conservateurs contribuent à garantir que les sous-intrigues précieuses sont prioritaires.

  • Développeur : Contrairement aux trois premiers qui sont du côté de l’offre, les développeurs sont du côté de la demande et sont les principaux utilisateurs de The Graph. Ils créent et soumettent des sous-graphiques au réseau The Graph et attendent que le réseau satisfasse les données de la demande.

À l'heure actuelle, The Graph est passé à un service d'hébergement de sous-graphes décentralisé complet, et des incitations économiques circulent entre les différents participants pour assurer le fonctionnement du système :

  • Récompenses des nœuds d'index : les nœuds d'index génèrent des revenus grâce aux frais de requête des consommateurs et à une partie de la récompense du bloc de jetons GRT.

  • Récompenses des délégants : les délégants reçoivent une partie des récompenses via les inodes qu'ils prennent en charge.

  • Récompenses du conservateur : si les conservateurs signalent des sous-graphiques précieux, ils peuvent recevoir des récompenses partielles provenant des frais de requête.

En fait, les produits de The Graph se développent également rapidement dans la vague de l’IA. En tant que l'une des principales équipes de développement de l'écosystème The Graph, Semiotic Labs s'est engagé à utiliser la technologie de l'IA pour optimiser la tarification des index et l'expérience des requêtes des utilisateurs. Actuellement, les outils AutoAgora, Allocation Optimizer et AgentC développés par Semiotic Labs améliorent chacun les performances de l'écosystème sous de multiples aspects.

  • AutoAgora introduit un mécanisme de tarification dynamique pour ajuster les prix en temps réel en fonction du volume de requêtes et de l'utilisation des ressources, optimiser les stratégies de tarification et garantir la compétitivité de l'indexeur et la maximisation des revenus.

  • Allocation Optimizer résout le problème complexe de l'allocation des ressources des sous-graphes et aide les indexeurs à obtenir une allocation optimale des ressources pour améliorer les revenus et les performances.

  • AgentC est un outil expérimental qui améliore l'expérience utilisateur en permettant aux utilisateurs d'accéder aux données blockchain de The Graph via le langage naturel.

L'application de ces outils permet à The Graph d'améliorer encore l'intelligence et la convivialité du système avec l'assistance de l'IA.

3.2 Base de chaîne

Chainbase est un réseau de données à chaîne complète qui intègre toutes les données de la blockchain sur une seule plate-forme, ce qui permet aux développeurs de créer et de maintenir plus facilement des applications. Ses caractéristiques uniques incluent :

  • Lac de données en temps réel : Chainbase fournit un lac de données en temps réel spécifiquement pour le streaming de données blockchain, rendant les données instantanément accessibles au fur et à mesure de leur génération.

  • Architecture à double chaîne : Chainbase construit une couche d'exécution basée sur Eigenlayer AVS pour former une architecture à double chaîne parallèle avec l'algorithme de consensus de CometBFT. Cette conception améliore la programmabilité et la composabilité des données inter-chaînes, prend en charge un débit élevé, une faible latence et une finalité, et améliore la sécurité du réseau grâce à un modèle à double garantie.

  • Norme de format de données innovante : Chainbase a introduit une nouvelle norme de format de données appelée « manuscrits » pour optimiser la façon dont les données sont structurées et utilisées dans l'industrie de la cryptographie.

  • Modèle Cryptoworld : exploitant ses vastes ressources de données blockchain, Chainbase combine la technologie de modèle d'IA pour créer des modèles d'IA capables de comprendre, prédire et interagir efficacement avec les transactions blockchain. Le modèle de base Theia est désormais disponible pour un usage public.

Ces fonctionnalités permettent à Chainbase de se démarquer parmi les protocoles d'indexation blockchain, avec un accent particulier sur l'accessibilité des données en temps réel, des formats de données innovants et la création de modèles plus intelligents pour de meilleures informations grâce à la combinaison de données en chaîne et hors chaîne.

Le modèle d'IA de Chainbase, Theia, est un point fort qui le différencie des autres protocoles de services de données. Theia est basé sur le modèle DORA développé par NVIDIA, combine des données en chaîne et hors chaîne et des activités spatio-temporelles, apprend et analyse les modèles de cryptage et répond par un raisonnement causal, explorant ainsi en profondeur la valeur potentielle et les modèles de la chaîne. données et fournir aux utilisateurs des services de données plus intelligents.

Les services de données basés sur l'IA font de Chainbase non seulement une plate-forme de services de données blockchain, mais un fournisseur de services de données intelligents plus compétitif. Grâce à de puissantes ressources de données et à l'analyse proactive de l'IA, Chainbase est en mesure de fournir des informations plus larges sur les données et d'optimiser les processus de traitement des données des utilisateurs.

3.3 Espace et temps

Space and Time (SxT) vise à créer une couche informatique vérifiable qui étend les preuves de connaissance nulle sur les entrepôts de données décentralisés afin de fournir un traitement de données fiable pour les contrats intelligents, les grands modèles de langage et les entreprises. Space and Time a levé 20 millions de dollars lors de son dernier cycle de financement de série A, mené par Framework Ventures, Lightspeed Faction, Arrington Capital et Hivemind Capital.

Dans le domaine de l'indexation et de la validation des données, Space and Time introduit une nouvelle voie technique : la preuve de SQL. Il s'agit d'une technologie innovante à preuve de connaissance nulle (ZKP) développée par Space and Time qui garantit que les requêtes SQL exécutées sur un entrepôt de données décentralisé sont infalsifiables et vérifiables. Lorsqu'une requête est exécutée, Proof of SQL génère une preuve cryptographique qui vérifie l'intégrité et l'exactitude des résultats de la requête. Cette preuve est jointe au résultat de la requête, permettant à tout vérificateur (comme un contrat intelligent, etc.) de confirmer de manière indépendante que les données n'ont pas été falsifiées lors du traitement. Les réseaux blockchain traditionnels s’appuient généralement sur des mécanismes de consensus pour vérifier l’authenticité des données, tandis que Proof of SQL de Space and Time implémente une méthode de vérification des données plus efficace. Plus précisément, dans le système Space and Time, un nœud est responsable de l'acquisition des données, tandis que d'autres nœuds vérifient l'authenticité des données grâce à la technologie zk. Cette méthode modifie la consommation de ressources de plusieurs nœuds en indexant de manière répétée les mêmes données dans le cadre du mécanisme de consensus jusqu'à ce qu'un consensus soit finalement atteint pour obtenir les données, et améliore les performances globales du système. À mesure que cette technologie évolue, elle crée un tremplin pour une série d’industries traditionnelles axées sur la fiabilité des données afin d’utiliser des produits structurés en données sur la blockchain.

Dans le même temps, SxT travaille en étroite collaboration avec le Microsoft AI Joint Innovation Lab pour accélérer le développement d'outils d'IA générative afin de permettre aux utilisateurs de traiter plus facilement les données de la blockchain via le langage naturel. Actuellement dans Space and Time Studio, les utilisateurs peuvent expérimenter la saisie de requêtes en langage naturel, et l'IA les convertira automatiquement en SQL et exécutera des instructions de requête au nom de l'utilisateur pour présenter les résultats finaux dont l'utilisateur a besoin.

3.4 Comparaison des différences

Conclusion et perspectives

En résumé, la technologie d'indexation des données blockchain a connu un processus d'amélioration progressive depuis la source initiale de données des nœuds, en passant par le développement de l'analyse des données et des indexeurs, et enfin jusqu'aux services de données complets basés sur l'IA. L'évolution continue de ces technologies améliore non seulement l'efficacité et la précision de l'accès aux données, mais offre également aux utilisateurs une expérience intelligente sans précédent.

À l’avenir, avec le développement continu de nouvelles technologies telles que la technologie de l’IA et la preuve de connaissance nulle, les services de données blockchain seront encore plus intelligents et sécurisés. Nous avons des raisons de croire que les services de données blockchain continueront à jouer un rôle important en tant qu’infrastructure à l’avenir, apportant un soutien solide au progrès et à l’innovation de l’industrie.