1 Introducción

Desde la primera ola de dApps Etheroll, ETHLend y CryptoKitties en 2017, hasta la proliferación de varias dApps financieras, de juegos y sociales basadas en diferentes blockchains en la actualidad, cuando hablamos de aplicaciones descentralizadas en cadena, ¿alguna vez hemos pensado en ello? ¿Cuáles son las fuentes de diversos datos que utilizan estas dApps en sus interacciones?

En 2024, la atención se centrará en la IA y la Web3. En el mundo de la inteligencia artificial, los datos son como la fuente de vida para su crecimiento y evolución. Así como las plantas dependen de la luz solar y la humedad para prosperar, los sistemas de inteligencia artificial también dependen de cantidades masivas de datos para "aprender" y "pensar" continuamente. Sin datos, los algoritmos de IA, por muy sofisticados que sean, no son más que castillos en el aire, incapaces de ejercer su debida inteligencia y eficacia.

Este artículo proporciona un análisis en profundidad de la evolución de la indexación de datos de blockchain durante el desarrollo de la industria desde la perspectiva de la accesibilidad de datos de blockchain (Accesibilidad de datos) y compara el antiguo protocolo de índice de datos The Graph con el protocolo de servicio de datos de blockchain emergente Chainbase. y Espacio y Tiempo, explorando específicamente las similitudes y diferencias en los servicios de datos y las características de la arquitectura de productos de estos dos nuevos protocolos que combinan la tecnología de IA.

2 Complejidad y simplicidad del índice de datos: del nodo blockchain a la base de datos de cadena completa

2.1 Fuente de datos: nodo blockchain

Desde el principio de comprender "qué es blockchain", a menudo vemos esta frase: blockchain es un libro de contabilidad descentralizado. Los nodos de blockchain son la base de toda la red blockchain y son responsables de registrar, almacenar y difundir todos los datos de las transacciones en la cadena. Cada nodo tiene una copia completa de los datos de la cadena de bloques, lo que garantiza que se mantenga la naturaleza descentralizada de la red. Sin embargo, no es fácil para los usuarios comunes construir y mantener un nodo blockchain. Esto no sólo requiere habilidades técnicas profesionales, sino que también conlleva altos costos de hardware y ancho de banda. Al mismo tiempo, los nodos ordinarios tienen capacidades de consulta limitadas y no pueden consultar datos en el formato requerido por los desarrolladores. Entonces, si bien en teoría cada uno puede ejecutar su propio nodo, en la práctica los usuarios suelen preferir confiar en servicios de terceros.

Para resolver este problema, surgieron los proveedores de nodos RPC (llamada a procedimiento remoto). Estos proveedores son responsables del costo y la gestión de los nodos y proporcionan datos a través de puntos finales RPC. Esto permite a los usuarios acceder fácilmente a los datos de blockchain sin crear sus propios nodos. Los puntos finales de RPC públicos son gratuitos, pero vienen con límites de velocidad que pueden afectar negativamente la experiencia del usuario de la dApp. Los puntos finales privados de RPC brindan un mejor rendimiento al reducir la congestión, pero incluso la recuperación de datos simple requiere mucha comunicación de ida y vuelta. Esto los hace con muchas solicitudes e ineficientes para consultas de datos complejas. Además, los puntos finales RPC privados suelen ser difíciles de escalar y carecen de compatibilidad entre diferentes redes. Sin embargo, la interfaz API estandarizada del proveedor de nodos brinda a los usuarios un umbral más bajo para acceder a los datos en la cadena, sentando las bases para el análisis y la aplicación de datos posteriores.

2.2 Análisis de datos: de los datos prototipo a los datos utilizables

Los datos obtenidos de los nodos de blockchain a menudo son datos sin procesar cifrados y codificados. Aunque estos datos conservan la integridad y seguridad de la cadena de bloques, su complejidad también aumenta la dificultad del análisis de datos. Para los usuarios o desarrolladores comunes, procesar directamente estos datos de prototipos requiere muchos conocimientos técnicos y recursos informáticos.

El proceso de análisis de datos es particularmente importante en este contexto. Al analizar datos de prototipos complejos en un formato que sea más fácil de entender y operar, los usuarios pueden comprender y utilizar los datos de manera más intuitiva. El éxito del análisis de datos determina directamente la eficiencia y el efecto de la aplicación de datos de blockchain y es un paso clave en todo el proceso de indexación de datos.

2.3 Evolución de los indexadores de datos

A medida que aumenta la cantidad de datos de blockchain, también aumenta la necesidad de indexadores de datos. Los indexadores desempeñan un papel vital en la organización de los datos en cadena y su envío a la base de datos para facilitar su consulta. Los indexadores funcionan indexando datos de blockchain y haciéndolos disponibles a través de un lenguaje de consulta similar a SQL (API como GraphQL). Al proporcionar una interfaz unificada para consultar datos, los indexadores permiten a los desarrolladores recuperar de forma rápida y precisa la información que necesitan utilizando un lenguaje de consulta estandarizado, lo que simplifica enormemente el proceso.

Los diferentes tipos de indexadores optimizan la recuperación de datos de diversas maneras:

  • Indexadores de nodos completos: estos indexadores ejecutan nodos completos de blockchain y extraen datos directamente de ellos, lo que garantiza que los datos sean completos y precisos, pero requieren una gran capacidad de almacenamiento y procesamiento.

  • Indexadores livianos: estos indexadores dependen de nodos completos para recuperar datos específicos bajo demanda, lo que reduce los requisitos de almacenamiento pero potencialmente aumenta los tiempos de consulta.

  • Indexadores especializados: estos indexadores se especializan en ciertos tipos de datos o cadenas de bloques específicas, optimizando la recuperación para casos de uso específicos, como datos NFT o transacciones DeFi.

  • Indexadores agregados: estos indexadores extraen datos de múltiples cadenas de bloques y fuentes, incluida información fuera de la cadena, lo que proporciona una interfaz de consulta unificada que es particularmente útil para dApps de múltiples cadenas.

Actualmente, el modo de archivo del nodo de archivo Ethereum en el cliente Geth ocupa aproximadamente 13,5 TB de espacio de almacenamiento, mientras que en el cliente Erigon, el requisito de archivo es de aproximadamente 3 TB. A medida que la cadena de bloques siga creciendo, también aumentará la cantidad de almacenamiento de datos en los nodos de archivo. Ante una cantidad tan grande de datos, los protocolos de indexación convencionales no solo admiten la indexación de cadenas múltiples, sino que también personalizan los marcos de análisis de datos de acuerdo con las necesidades de datos de las diferentes aplicaciones. Por ejemplo, el marco "Subgraph" de The Graph es un caso típico.

La aparición de indexadores ha mejorado enormemente la eficiencia de la indexación y consulta de datos. Los indexadores pueden indexar de manera eficiente grandes cantidades de datos y admitir consultas de alta velocidad en comparación con los puntos finales RPC tradicionales. Estos indexadores permiten a los usuarios realizar consultas complejas, filtrar datos fácilmente y analizarlos después de la extracción. Además, algunos indexadores también admiten la agregación de fuentes de datos de múltiples cadenas de bloques, evitando el problema de tener que implementar múltiples API en dApps de múltiples cadenas. Al ejecutarse distribuido en varios nodos, el indexador no solo proporciona mayor seguridad y rendimiento, sino que también reduce el riesgo de interrupción y tiempo de inactividad que puede conllevar un proveedor de RPC centralizado.

Por el contrario, el indexador utiliza un lenguaje de consulta predefinido para permitir a los usuarios obtener directamente la información requerida sin procesar los datos complejos subyacentes. Este mecanismo mejora significativamente la eficiencia y confiabilidad de la recuperación de datos y es una innovación importante en el acceso a datos de blockchain.

2.4 Base de datos de cadena completa: alineación de flujo primero

Consultar datos utilizando nodos de índice a menudo significa que la API se convierte en el único portal para digerir datos en la cadena. Sin embargo, cuando un proyecto entra en la fase de expansión, a menudo se requieren fuentes de datos más flexibles, algo que las API estandarizadas no pueden proporcionar. A medida que los requisitos de las aplicaciones se vuelven más complejos, los indexadores de datos primarios y sus formatos de índice estandarizados gradualmente no pueden cumplir con requisitos de consulta cada vez más diversos, como búsqueda, acceso entre cadenas o mapeo de datos fuera de la cadena.

En las arquitecturas modernas de canalización de datos, ha surgido un enfoque de "primero el flujo" como solución a las limitaciones del procesamiento por lotes tradicional, que permite la ingesta, el procesamiento y el análisis de datos en tiempo real. Este cambio de paradigma permite a las organizaciones responder inmediatamente a los datos entrantes, lo que da como resultado conocimientos y decisiones casi instantáneos. De manera similar, el desarrollo de los proveedores de servicios de datos blockchain también se está moviendo en la dirección de construir flujos de datos blockchain. Los proveedores de servicios de indexación tradicionales han lanzado sucesivamente productos que obtienen datos blockchain en tiempo real en forma de flujos de datos, como The Graph's Substreams y Goldsky's Mirror. y otros lagos de datos en tiempo real como Chainbase y SubSquid que generan flujos de datos basados ​​en blockchain.

Estos servicios están diseñados para abordar la necesidad de análisis en tiempo real de transacciones blockchain y capacidades de consulta más completas. Así como la arquitectura "stream-first" revoluciona la forma en que se procesan y consumen los datos en los canales de datos tradicionales al reducir la latencia y mejorar la capacidad de respuesta, estos proveedores de servicios de transmisión de datos blockchain también esperan brindar soporte a través de fuentes de datos más avanzadas y maduras. ayudando en el análisis de datos en cadena.

Redefinir los desafíos de los datos en cadena a través de la lente de los canales de datos modernos nos permite ver todo el potencial de administrar, almacenar y servir datos en cadena desde una perspectiva completamente nueva. Cuando empezamos a pensar en indexadores como los subgrafos y Ethereum ETL como flujos de datos en una tubería de datos en lugar del resultado final, podemos imaginar un mundo posible en el que los conjuntos de datos de alto rendimiento se puedan adaptar a cualquier caso de uso empresarial.

3 ¿AI + base de datos? Comparación en profundidad: gráfico, base de cadena, espacio y tiempo

3.1 El gráfico

La red Graph implementa servicios de consulta e indexación de datos de múltiples cadenas a través de una red de nodos descentralizada, lo que permite a los desarrolladores indexar fácilmente datos de blockchain y crear aplicaciones descentralizadas. Sus principales modelos de productos son el mercado de ejecución de consultas de datos y el mercado de almacenamiento en caché de índices de datos. Estos dos mercados esencialmente satisfacen las necesidades de consultas de productos de los usuarios. El mercado de ejecución de consultas se refiere específicamente a que los consumidores elijan el proveedor adecuado para los datos requeridos. de los datos se pagan, y el mercado de caché de índice de datos es un mercado en el que los nodos de índice movilizan recursos en función de la popularidad de indexación histórica del subgrafo, las tarifas de consulta cobradas y las necesidades de los curadores en cadena para la salida del subgrafo. .

Los subgrafos son la estructura de datos básica en la red The Graph. Definen cómo extraer y transformar datos de la cadena de bloques a un formato consultable (como un esquema GraphQL). Cualquiera puede crear subgrafos y varias aplicaciones pueden reutilizarlos, lo que mejora la reutilización de los datos y la eficiencia del uso.

La estructura del producto Graph (Fuente: The Graph Whitepaper)

La red Graph consta de cuatro roles clave: indexadores, curadores, delegados y desarrolladores, que trabajan juntos para impulsar las aplicaciones web3. Son sus respectivas responsabilidades las siguientes:

  • Indexador: Indexer es un operador de nodos en la red The Graph. Los nodos Index participan en la red apostando GRT (el token nativo de The Graph) para proporcionar servicios de indexación y procesamiento de consultas.

  • Delegador: Los delegados son usuarios que apuestan tokens GRT para indexar nodos para respaldar sus operaciones. Los delegados obtienen una parte de las recompensas a través de los inodos en los que delegan.

  • Curador: el curador es responsable de señalar qué subgrafos deben ser indexados por la red. Los curadores ayudan a garantizar que se prioricen las subtramas valiosas.

  • Desarrollador: A diferencia de los tres primeros que están del lado de la oferta, los desarrolladores están del lado de la demanda y son los principales usuarios de The Graph. Crean y envían subgrafos a la red The Graph y esperan a que la red satisfaga los datos de la demanda.

En la actualidad, The Graph ha pasado a ser un servicio integral de alojamiento de subgrafos descentralizado y existen incentivos económicos circulantes entre los diferentes participantes para garantizar el funcionamiento del sistema:

  • Recompensas de los nodos de índice: los nodos de índice obtienen ingresos a través de las tarifas de consulta de los consumidores y parte de la recompensa del bloque de tokens GRT.

  • Recompensas del delegador: los delegados reciben una parte de las recompensas a través de los inodos que admiten.

  • Recompensas del curador: si los curadores señalan subgrafos valiosos, pueden recibir una recompensa parcial de las tarifas de consulta.

De hecho, los productos de The Graph también se están desarrollando rápidamente en la ola de IA. Como uno de los equipos de desarrollo principales del ecosistema The Graph, Semiotic Labs se ha comprometido a utilizar la tecnología de inteligencia artificial para optimizar los precios indexados y la experiencia de consulta del usuario. Actualmente, las herramientas AutoAgora, Allocation Optimizer y AgentC desarrolladas por Semiotic Labs mejoran el rendimiento del ecosistema en múltiples aspectos.

  • AutoAgora introduce un mecanismo de precios dinámico para ajustar los precios en tiempo real en función del volumen de consultas y el uso de recursos, optimizar las estrategias de precios y garantizar la competitividad del indexador y la maximización de ingresos.

  • Allocation Optimizer resuelve el complejo problema de la asignación de recursos de subgrafos y ayuda a los indexadores a lograr una asignación óptima de recursos para mejorar los ingresos y el rendimiento.

  • AgentC es una herramienta experimental que mejora la experiencia del usuario al permitirles acceder a los datos de la cadena de bloques de The Graph a través del lenguaje natural.

La aplicación de estas herramientas permite a The Graph mejorar aún más la inteligencia y la facilidad de uso del sistema con asistencia de IA.

3.2 Base de cadena

Chainbase es una red de datos de cadena completa que integra todos los datos de blockchain en una plataforma, lo que facilita a los desarrolladores la creación y el mantenimiento de aplicaciones. Sus características únicas incluyen:

  • Lago de datos en tiempo real: Chainbase proporciona un lago de datos en tiempo real específicamente para la transmisión de datos de blockchain, lo que hace que los datos sean accesibles instantáneamente a medida que se generan.

  • Arquitectura de doble cadena: Chainbase construye una capa de ejecución basada en Eigenlayer AVS para formar una arquitectura de doble cadena paralela con el algoritmo de consenso de CometBFT. Este diseño mejora la programabilidad y componibilidad de los datos entre cadenas, admite un alto rendimiento, baja latencia y finalidad, y mejora la seguridad de la red a través de un modelo de doble garantía.

  • Estándar de formato de datos innovador: Chainbase ha introducido un nuevo estándar de formato de datos llamado "manuscritos" para optimizar la forma en que se estructuran y utilizan los datos en la industria de la criptografía.

  • Modelo Cryptoworld: aprovechando sus vastos recursos de datos de blockchain, Chainbase combina la tecnología de modelo de IA para crear modelos de IA que pueden comprender, predecir e interactuar de manera efectiva con las transacciones de blockchain. El modelo base Theia ya está disponible para uso público.

Estas características hacen que Chainbase se destaque entre los protocolos de indexación de blockchain, con un enfoque particular en la accesibilidad de datos en tiempo real, formatos de datos innovadores y la creación de modelos más inteligentes para obtener conocimientos mejorados mediante la combinación de datos dentro y fuera de la cadena.

El modelo de inteligencia artificial de Chainbase, Theia, es un punto clave que lo diferencia de otros protocolos de servicios de datos. Theia se basa en el modelo DORA desarrollado por NVIDIA, combina datos dentro y fuera de la cadena y actividades espacio-temporales, aprende y analiza patrones de cifrado y responde a través del razonamiento causal, explorando así en profundidad el valor potencial y los patrones de la cadena. datos y proporcionar a los usuarios servicios de datos más inteligentes.

Los servicios de datos impulsados ​​por IA hacen que Chainbase ya no sea solo una plataforma de servicios de datos blockchain, sino un proveedor de servicios de datos inteligentes más competitivo. A través de potentes recursos de datos y el análisis proactivo de la IA, Chainbase puede proporcionar conocimientos de datos más amplios y optimizar los procesos de procesamiento de datos de los usuarios.

3.3 Espacio y tiempo

Space and Time (SxT) tiene como objetivo crear una capa informática verificable que extienda las pruebas de conocimiento cero en almacenes de datos descentralizados para proporcionar procesamiento de datos confiable para contratos inteligentes, grandes modelos de lenguaje y empresas. Space and Time ha recaudado 20 millones de dólares en su última ronda de financiación Serie A, liderada por Framework Ventures, Lightspeed Faction, Arrington Capital y Hivemind Capital.

En el campo de la indexación y validación de datos, Space and Time introduce una nueva vía técnica: la prueba de SQL. Se trata de una innovadora tecnología a prueba de conocimiento cero (ZKP) desarrollada por Space and Time que garantiza que las consultas SQL ejecutadas en almacenes de datos descentralizados sean a prueba de manipulaciones y verificables. Cuando se ejecuta una consulta, Prueba de SQL genera una prueba criptográfica que verifica la integridad y precisión de los resultados de la consulta. Esta prueba se adjunta al resultado de la consulta, lo que permite que cualquier verificador (como un contrato inteligente, etc.) confirme de forma independiente que los datos no han sido manipulados durante el procesamiento. Las redes blockchain tradicionales generalmente se basan en mecanismos de consenso para verificar la autenticidad de los datos, mientras que la Prueba de SQL de Space and Time implementa un método de verificación de datos más eficiente. Específicamente, en el sistema de Space and Time, un nodo es responsable de adquirir datos, mientras que otros nodos verifican la autenticidad de los datos a través de la tecnología zk. Este método cambia el consumo de recursos de múltiples nodos indexando repetidamente los mismos datos bajo el mecanismo de consenso hasta que finalmente se alcanza un consenso para obtener los datos y mejora el rendimiento general del sistema. A medida que esta tecnología madura, crea un trampolín para que una variedad de industrias tradicionales que se centran en la confiabilidad de los datos utilicen productos estructurados de datos en blockchain.

Al mismo tiempo, SxT ha estado trabajando estrechamente con Microsoft AI Joint Innovation Lab para acelerar el desarrollo de herramientas de IA generativa para facilitar a los usuarios el procesamiento de datos de blockchain a través del lenguaje natural. Actualmente, en Space and Time Studio, los usuarios pueden experimentar el ingreso de consultas en lenguaje natural, y la IA las convertirá automáticamente a SQL y ejecutará declaraciones de consulta en nombre del usuario para presentar los resultados finales que el usuario necesita.

3.4 Comparación de diferencias

Conclusión y perspectivas

En resumen, la tecnología de indexación de datos blockchain ha experimentado un proceso de mejora gradual desde la fuente inicial de datos del nodo, pasando por el desarrollo de indexadores y análisis de datos, y finalmente hasta los servicios de datos de cadena completa potenciados por IA. La evolución continua de estas tecnologías no solo mejora la eficiencia y precisión del acceso a los datos, sino que también brinda a los usuarios una experiencia inteligente sin precedentes.

De cara al futuro, con el desarrollo continuo de nuevas tecnologías, como la tecnología de inteligencia artificial y la prueba de conocimiento cero, los servicios de datos de blockchain serán aún más inteligentes y seguros. Tenemos motivos para creer que los servicios de datos blockchain seguirán desempeñando un papel importante como infraestructura en el futuro, proporcionando un fuerte apoyo al progreso y la innovación de la industria.