Чтение, индексирование для анализа, краткое введение в трек индексирования данных Web3.

1 Введение
Начиная с первой волны децентрализованных приложений Etheroll, ETHLend и CryptoKitties в 2017 году и заканчивая распространением различных финансовых, игровых и социальных приложений, основанных на различных блокчейнах, сегодня, когда мы говорим о децентрализованных сетевых приложениях, задумывались ли мы об этом? являются ли источники различных данных используемыми этими приложениями в их взаимодействиях?
В 2024 году основное внимание будет уделено искусственному интеллекту и Web3. В мире искусственного интеллекта данные являются источником жизни для его роста и развития. Точно так же, как растения для своего процветания полагаются на солнечный свет и влагу, системы искусственного интеллекта также полагаются на огромные объемы данных, чтобы постоянно «обучаться» и «думать». Без данных алгоритмы ИИ, какими бы сложными они ни были, представляют собой не более чем воздушные замки, неспособные проявить должный интеллект и эффективность.
В этой статье представлен углубленный анализ эволюции индексации данных блокчейна в ходе развития отрасли с точки зрения доступности данных блокчейна (Data Accessibility), а также сравнение старого протокола индексирования данных The Graph с появляющимся протоколом службы данных блокчейна Chainbase. и «Пространство и время», в частности изучая сходства и различия в службах передачи данных и особенностях архитектуры продуктов этих двух новых протоколов, сочетающих в себе технологию искусственного интеллекта.
2 Сложность и простота индекса данных: от узла блокчейна до базы данных полной цепочки
2.1 Источник данных: узел блокчейна
С самого начала понимания того, «что такое блокчейн», мы часто видим следующее предложение: блокчейн — это децентрализованная бухгалтерская книга. Узлы блокчейна являются основой всей сети блокчейнов и отвечают за запись, хранение и распространение всех данных транзакций в цепочке. Каждый узел имеет полную копию данных блокчейна, что обеспечивает сохранение децентрализованного характера сети. Однако обычным пользователям нелегко создать и поддерживать узел блокчейна. Это не только требует профессиональных технических навыков, но также сопряжено с высокими затратами на оборудование и полосу пропускания. В то же время обычные узлы имеют ограниченные возможности запросов и не могут запрашивать данные в формате, необходимом разработчикам. Таким образом, хотя теоретически каждый может запустить свой собственный узел, на практике пользователи часто предпочитают полагаться на сторонние сервисы.
Чтобы решить эту проблему, появились поставщики узлов RPC (удаленный вызов процедур). Эти поставщики несут ответственность за стоимость узлов и управление ими, а также предоставляют данные через конечные точки RPC. Это позволяет пользователям легко получать доступ к данным блокчейна без создания собственных узлов. Публичные конечные точки RPC бесплатны, но имеют ограничения по скорости, которые могут негативно повлиять на взаимодействие с пользователем dApp. Частные конечные точки RPC обеспечивают более высокую производительность за счет уменьшения перегрузки, но даже простое получение данных требует большого количества двусторонних коммуникаций. Это делает их перегруженными запросами и неэффективными для сложных запросов данных. Кроме того, частные конечные точки RPC часто трудно масштабировать, и им не хватает совместимости в разных сетях. Однако стандартизированный интерфейс API поставщика узлов предоставляет пользователям более низкий порог доступа к данным в цепочке, закладывая основу для последующего анализа и применения данных.
2.2 Анализ данных: от данных прототипа до полезных данных
Данные, полученные от узлов блокчейна, часто зашифрованы и закодированы в виде необработанных данных. Хотя эти данные сохраняют целостность и безопасность блокчейна, их сложность также увеличивает сложность анализа данных. Для обычных пользователей или разработчиков непосредственная обработка этих данных прототипа требует большого количества технических знаний и вычислительных ресурсов.
В этом контексте особенно важен процесс анализа данных. Анализируя сложные данные прототипа в формате, который легче понять и использовать, пользователи могут понимать и использовать данные более интуитивно. Успех анализа данных напрямую определяет эффективность и эффект применения данных блокчейна и является ключевым шагом во всем процессе индексации данных.
2.3 Эволюция индексаторов данных
По мере увеличения объема данных блокчейна растет и потребность в индексаторах данных. Индексаторы играют жизненно важную роль в организации данных в цепочке и отправке их в базу данных для удобного запроса. Индексаторы работают, индексируя данные блокчейна и делая их легко доступными через SQL-подобный язык запросов (API, такие как GraphQL). Предоставляя унифицированный интерфейс для запроса данных, индексаторы позволяют разработчикам быстро и точно получать необходимую информацию, используя стандартизированный язык запросов, что значительно упрощает процесс.
Различные типы индексаторов оптимизируют извлечение данных по-разному:
Индексаторы полных узлов. Эти индексаторы управляют полными узлами блокчейна и извлекают данные непосредственно из них, обеспечивая полноту и точность данных, но требуют значительной мощности хранения и обработки.
Легкие индексаторы. Эти индексаторы полагаются на полные узлы для извлечения определенных данных по требованию, что снижает требования к хранению, но потенциально увеличивает время выполнения запросов.
Специализированные индексаторы. Эти индексаторы специализированы для определенных типов данных или конкретных блокчейнов, оптимизируя извлечение для конкретных случаев использования, таких как данные NFT или транзакции DeFi.
Агрегированные индексаторы: эти индексаторы извлекают данные из нескольких блокчейнов и источников, включая информацию вне цепочки, обеспечивая унифицированный интерфейс запросов, который особенно полезен для многоцепных dApps.
В настоящее время режим архива узла архива Ethereum в клиенте Geth занимает примерно 13,5 ТБ дискового пространства, тогда как в клиенте Erigon требование к архиву составляет примерно 3 ТБ. Поскольку блокчейн продолжает расти, объем хранения данных в узлах архива также будет увеличиваться. Столкнувшись с таким огромным объемом данных, основные протоколы индексаторов не только поддерживают многоцепочное индексирование, но и настраивают структуры анализа данных в соответствии с потребностями данных различных приложений. Например, фреймворк «Subgraph» The Graph является типичным случаем.
Появление индексаторов значительно повысило эффективность индексации и запроса данных. Индексаторы могут эффективно индексировать большие объемы данных и поддерживать высокоскоростные запросы по сравнению с традиционными конечными точками RPC. Эти индексаторы позволяют пользователям выполнять сложные запросы, легко фильтровать данные и анализировать их после извлечения. Кроме того, некоторые индексаторы также поддерживают агрегацию источников данных из нескольких блокчейнов, что позволяет избежать проблемы необходимости развертывания нескольких API в многоцепочных dApps. Распределенный по нескольким узлам, индексатор не только обеспечивает большую безопасность и производительность, но также снижает риск сбоев и простоев, которые могут возникнуть при использовании централизованного поставщика RPC.
Напротив, индексатор использует предопределенный язык запросов, позволяющий пользователям напрямую получать необходимую информацию без обработки лежащих в ее основе сложных данных. Этот механизм значительно повышает эффективность и надежность поиска данных и является важной инновацией в доступе к данным блокчейна.
2.4 База данных полной цепочки: выравнивание по принципу «сначала поток»
Запрос данных с использованием узлов индекса часто означает, что API становится единственным порталом для обработки данных вверх по цепочке. Однако, когда проект вступает в фазу расширения, часто требуются более гибкие источники данных, которые не могут обеспечить стандартизированные API. Поскольку требования приложений становятся более сложными, индексаторы первичных данных и их стандартизированные форматы индексов постепенно перестают соответствовать все более разнообразным требованиям запросов, таким как поиск, межсетевой доступ или сопоставление данных вне цепочки.
В современных архитектурах конвейеров данных подход «сначала поток» появился как решение ограничений традиционной пакетной обработки, позволяющее принимать, обрабатывать и анализировать данные в реальном времени. Этот сдвиг парадигмы позволяет организациям немедленно реагировать на поступающие данные, что приводит к почти мгновенному получению информации и принятию решений. Аналогичным образом, развитие поставщиков услуг передачи данных в блокчейне также движется в направлении построения потоков данных в блокчейне. Традиционные поставщики услуг индексирования последовательно запускают продукты, которые получают данные блокчейна в режиме реального времени в виде потока данных, такие как The Graph's Substreams, Goldsky's Mirror. и другие озера данных в реальном времени, такие как Chainbase и SubSquid, которые генерируют потоки данных на основе блокчейна.
Эти сервисы предназначены для удовлетворения потребностей в анализе транзакций блокчейна в реальном времени и более полных возможностях выполнения запросов. Подобно тому, как архитектура «сначала поток» революционизирует способы обработки и потребления данных в традиционных конвейерах данных за счет сокращения задержек и повышения оперативности, эти поставщики услуг потоковой передачи данных на блокчейне также надеются поддержать больше за счет более продвинутых и зрелых источников данных. помощь в анализе данных в сети.
Переосмысление проблем, связанных с данными в цепочке, через призму современных конвейеров данных позволяет нам увидеть весь потенциал управления, хранения и обслуживания данных в цепочке с совершенно новой точки зрения. Когда мы начинаем думать об индексаторах, таких как подграфы и ETL Ethereum, как о потоках данных в конвейере данных, а не как о конечном результате, мы можем представить себе возможный мир, в котором высокопроизводительные наборы данных могут быть адаптированы к любому варианту использования в бизнесе.
3 AI + База данных Углубленное сравнение График, Chainbase, Пространство и Время?
3.1 График
Сеть Graph реализует многоцепочечные службы индексации и запроса данных через децентрализованную сеть узлов, что позволяет разработчикам легко индексировать данные блокчейна и создавать децентрализованные приложения. Его основными моделями продуктов являются рынок выполнения запросов к данным и рынок кэширования индексов данных. Эти два рынка по существу удовлетворяют потребности пользователей в запросах продуктов. Рынок выполнения запросов к данным конкретно относится к потребителям, выбирающим подходящего поставщика для необходимых данных. данных оплачиваются, а рынок кэша индекса данных — это рынок, на котором узлы индекса мобилизуют ресурсы на основе исторической популярности индексации подграфа, взимаемой платы за запросы и потребностей кураторов в цепочке для вывода подграфа. .
Подграфы — это базовая структура данных в сети Graph. Они определяют, как извлекать и преобразовывать данные из блокчейна в запрашиваемый формат (например, схему GraphQL). Любой может создавать подграфы, и несколько приложений могут повторно использовать эти подграфы, что повышает возможность повторного использования данных и эффективность использования.
Структура продукта Graph (Источник: Технический документ The Graph)
Сеть Graph состоит из четырех ключевых ролей: индексаторов, кураторов, делегатов и разработчиков, которые вместе работают над созданием веб3-приложений. Ниже приведены их соответствующие обязанности:
Индексатор: Индексатор — это оператор узла в сети Graph. Узлы индекса участвуют в сети, делая ставку GRT (собственный токен The Graph) для предоставления услуг индексации и обработки запросов.
Делегатор: Делегаторы — это пользователи, которые ставят токены GRT на индексные узлы для поддержки своих операций. Делегаторы получают часть вознаграждений через иноды, которым они делегируют.
Куратор: Куратор отвечает за сигнализацию того, какие подграфы должны быть проиндексированы сетью. Кураторы помогают обеспечить приоритетность ценных сюжетов.
Разработчик: В отличие от первых троих, которые являются стороной предложения, разработчики — это сторона спроса и основные пользователи The Graph. Они создают и отправляют подграфы в сеть Graph и ждут, пока сеть удовлетворит данные спроса.
В настоящее время The Graph перешел на комплексную децентрализованную услугу хостинга подграфов, и среди различных участников циркулируют экономические стимулы для обеспечения работы системы:
Награды за узлы индекса. Узлы индекса получают доход за счет платы за запросы потребителей и части вознаграждения за блок токенов GRT.
Награды делегатов. Делегаторы получают часть вознаграждений через поддерживаемые ими индексные дескрипторы.
Вознаграждение куратора: если кураторы сигнализируют о ценных подграфах, они могут получить частичное вознаграждение в виде платы за запросы.
Фактически, продукты The Graph также быстро развиваются на волне искусственного интеллекта. Являясь одной из основных команд разработчиков экосистемы The Graph, Semiotic Labs стремится использовать технологию искусственного интеллекта для оптимизации цен на индексы и улучшения качества запросов пользователей. В настоящее время инструменты AutoAgora, Allocation Optimizer и AgentC, разработанные Semiotic Labs, улучшают производительность экосистемы во многих аспектах.
AutoAgora представляет механизм динамического ценообразования, позволяющий корректировать цены в реальном времени в зависимости от объема запросов и использования ресурсов, оптимизировать стратегии ценообразования и обеспечивать конкурентоспособность индексатора и максимизацию доходов.
Оптимизатор распределения решает сложную проблему распределения ресурсов подграфа и помогает индексаторам добиться оптимального распределения ресурсов для повышения доходов и производительности.
AgentC — это экспериментальный инструмент, который улучшает взаимодействие с пользователем, позволяя пользователям получать доступ к данным блокчейна The Graph на естественном языке.
Применение этих инструментов позволяет The Graph еще больше повысить интеллектуальность и удобство использования системы с помощью искусственного интеллекта.
3.2 Цепная база
Chainbase — это сеть передачи данных с полной цепочкой, которая объединяет все данные блокчейна в одну платформу, что упрощает разработчикам создание и поддержку приложений. Его уникальные особенности включают в себя:
Озеро данных в реальном времени: Chainbase предоставляет озеро данных в реальном времени специально для потоковой передачи данных блокчейна, что делает данные мгновенно доступными по мере их создания.
Двухцепочечная архитектура: Chainbase создает уровень исполнения на основе Eigenlayer AVS для формирования параллельной двухцепочечной архитектуры с алгоритмом консенсуса CometBFT. Эта конструкция улучшает программируемость и компонуемость данных между цепочками, поддерживает высокую пропускную способность, низкую задержку и окончательность, а также повышает безопасность сети за счет модели двойного обеспечения.
Инновационный стандарт формата данных: Chainbase представила новый стандарт формата данных, называемый «рукописи», для оптимизации способа структурирования и использования данных в криптоиндустрии.
Модель криптомира: Благодаря своим обширным ресурсам данных блокчейна, Chainbase объединяет технологию моделей искусственного интеллекта для создания моделей искусственного интеллекта, которые могут эффективно понимать, прогнозировать и взаимодействовать с транзакциями блокчейна. Базовая модель Theia теперь доступна для публичного использования.
Эти функции выделяют Chainbase среди протоколов индексации блокчейнов, уделяя особое внимание доступности данных в реальном времени, инновационным форматам данных и созданию более интеллектуальных моделей для улучшения понимания за счет сочетания данных внутри и вне цепочки.
Модель ИИ Chainbase Theia является ключевым моментом, который отличает ее от других протоколов обслуживания данных. Theia основана на модели DORA, разработанной NVIDIA, объединяет данные в цепочке и вне цепочки, а также пространственно-временные действия, изучает и анализирует шаблоны шифрования и реагирует посредством причинно-следственных рассуждений, тем самым глубоко исследуя потенциальную ценность и закономерности внутри цепочки. данных и предоставление пользователям более интеллектуальных услуг по передаче данных.
Службы передачи данных на базе искусственного интеллекта делают Chainbase уже не просто платформой обслуживания данных блокчейна, а более конкурентоспособным поставщиком интеллектуальных услуг передачи данных. Благодаря мощным ресурсам данных и упреждающему анализу искусственного интеллекта Chainbase может предоставлять более широкий анализ данных и оптимизировать процессы обработки данных пользователей.
3.3 Пространство и время
Целью Space and Time (SxT) является создание проверяемого вычислительного уровня, который расширяет доказательства с нулевым разглашением в децентрализованных хранилищах данных, чтобы обеспечить надежную обработку данных для смарт-контрактов, больших языковых моделей и предприятий. Space and Time привлекла $20 млн в своем последнем раунде финансирования серии A, возглавляемом Framework Ventures, Lightspeed Faction, Arrington Capital и Hivemind Capital.
В области индексации и проверки данных Space and Time представляет новый технический путь — Proof of SQL. Это инновационная технология доказательства с нулевым разглашением (ZKP), разработанная Space and Time, которая гарантирует, что SQL-запросы, выполняемые в децентрализованном хранилище данных, защищены от несанкционированного доступа и поддаются проверке. При выполнении запроса Proof of SQL генерирует криптографическое доказательство, проверяющее целостность и точность результатов запроса. Это доказательство прикрепляется к результату запроса, позволяя любому верификатору (например, смарт-контракту и т. д.) независимо подтвердить, что данные не были подделаны во время обработки. Традиционные сети блокчейнов обычно полагаются на механизмы консенсуса для проверки подлинности данных, в то время как доказательство SQL от Space and Time реализует более эффективный метод проверки данных. В частности, в системе «Пространство и время» один узел отвечает за сбор данных, а другие узлы проверяют подлинность данных с помощью технологии zk. Этот метод изменяет потребление ресурсов несколькими узлами, неоднократно индексирующими одни и те же данные в рамках механизма консенсуса, пока наконец не будет достигнут консенсус для получения данных, и повышает общую производительность системы. По мере развития этой технологии она создает трамплин для ряда традиционных отраслей, ориентированных на надежность данных, для использования продуктов со структурой данных на блокчейне.
В то же время SxT тесно сотрудничает с Объединенной лабораторией инноваций Microsoft AI, чтобы ускорить разработку инструментов генеративного искусственного интеллекта, чтобы облегчить пользователям обработку данных блокчейна с помощью естественного языка. В настоящее время в Space and Time Studio пользователи могут вводить запросы на естественном языке, а ИИ автоматически преобразует их в SQL и выполняет операторы запроса от имени пользователя, чтобы представить окончательные результаты, необходимые пользователю.
3.4 Сравнение различий
Выводы и перспективы
Подводя итог, можно сказать, что технология индексирования данных блокчейна претерпела постепенный процесс улучшения от первоначального источника данных узла через разработку синтаксического анализа данных и индексаторов и, наконец, до служб данных полной цепочки на базе искусственного интеллекта. Постоянное развитие этих технологий не только повышает эффективность и точность доступа к данным, но и дает пользователям беспрецедентный интеллектуальный опыт.
Заглядывая в будущее, благодаря постоянному развитию новых технологий, таких как технологии искусственного интеллекта и доказательство с нулевым разглашением, услуги передачи данных на блокчейне станут еще более интеллектуальными и безопасными. У нас есть основания полагать, что сервисы данных блокчейна будут продолжать играть важную роль в качестве инфраструктуры в будущем, обеспечивая мощную поддержку прогрессу и инновациям отрасли.
Чтение, индексирование для анализа, краткое введение в трек индексирования данных Web3.

Другие публикации автора

Последние новости

Чтение, индексирование для анализа, краткое введение в трек индексирования данных Web3.

Другие публикации автора

Последние новости

Популярные статьи