Читання, індексування для аналізу, короткий вступ до доріжки індексування даних Web3

1 Вступ
Починаючи з першої хвилі dApps Etherol, ETHLend і CryptoKitties у 2017 році, до поширення різних фінансових, ігрових і соціальних додатків на основі різних блокчейнів сьогодні, коли ми говоримо про децентралізовані додатки в ланцюжку, чи думали ми коли-небудь про це? джерела різноманітних даних, які використовуються цими dApps у їхній взаємодії?
У 2024 році основна увага буде зосереджена на штучному інтелекті та Web3. У світі штучного інтелекту дані є джерелом життя для його зростання та еволюції. Подібно до того, як рослини покладаються на сонячне світло та вологу, щоб процвітати, системи штучного інтелекту також покладаються на величезні обсяги даних, щоб постійно «навчатися» та «мислити». Без даних алгоритми штучного інтелекту, якими б складними вони не були, є нічим іншим, як повітряними замками, нездатними проявити належний інтелект і ефективність.
У цій статті надається поглиблений аналіз еволюції індексування даних блокчейну під час розвитку галузі з точки зору доступності даних блокчейну (Data Accessibility) і порівнюється старий протокол індексування даних The Graph із новим протоколом служби даних блокчейну Chainbase. і «Простір і час», зокрема досліджуючи схожість і відмінності в службах даних і особливостях архітектури продукту цих двох нових протоколів, які поєднують технологію ШІ.
2 Складність і простота індексу даних: від вузла блокчейну до повної бази даних
2.1 Джерело даних: блокчейн вузол
З самого початку розуміння того, «що таке блокчейн», ми часто бачимо таке речення: блокчейн — це децентралізована бухгалтерська книга. Вузли блокчейну є основою всієї мережі блокчейну і відповідають за запис, зберігання та розповсюдження всіх даних транзакцій у ланцюжку. Кожен вузол має повну копію даних блокчейну, що гарантує збереження децентралізованого характеру мережі. Однак звичайним користувачам непросто побудувати та підтримувати блокчейн-вузол. Це вимагає не тільки професійних технічних навичок, але й пов’язане з високими витратами на обладнання та пропускну здатність. У той же час звичайні вузли мають обмежені можливості запитів і не можуть запитувати дані у форматі, який вимагається розробниками. Тож хоча теоретично кожен може запустити власний вузол, на практиці користувачі часто вважають за краще покладатися на сторонні сервіси.
Щоб вирішити цю проблему, з’явилися постачальники вузлів RPC (віддаленого виклику процедури). Ці постачальники несуть відповідальність за вартість і керування вузлами та надають дані через кінцеві точки RPC. Це дозволяє користувачам легко отримувати доступ до даних блокчейну без створення власних вузлів. Загальнодоступні кінцеві точки RPC є безкоштовними, але мають обмеження на швидкість, що може негативно вплинути на роботу користувача dApp. Приватні кінцеві точки RPC забезпечують кращу продуктивність за рахунок зменшення перевантажень, але навіть просте отримання даних вимагає багато зворотного зв’язку. Це робить їх важкими для запитів і неефективними для складних запитів даних. Крім того, приватні кінцеві точки RPC часто важко масштабувати та несумісні між різними мережами. Однак стандартизований інтерфейс API постачальника вузлів дає користувачам нижчий поріг для доступу до даних у ланцюжку, закладаючи основу для подальшого аналізу даних і застосування.
2.2 Аналіз даних: від даних прототипу до даних, які можна використовувати
Дані, отримані з вузлів блокчейну, часто є зашифрованими та закодованими необробленими даними. Хоча ці дані зберігають цілісність і безпеку блокчейну, їх складність також ускладнює аналіз даних. Для звичайних користувачів або розробників безпосередня обробка цих прототипних даних вимагає багато технічних знань і обчислювальних ресурсів.
У цьому контексті особливо важливим є процес аналізу даних. Завдяки аналізу складних прототипних даних у формат, який легше зрозуміти та працювати, користувачі можуть розуміти та використовувати дані більш інтуїтивно. Успіх аналізу даних безпосередньо визначає ефективність і ефект застосування даних блокчейну і є ключовим кроком у всьому процесі індексації даних.
2.3 Еволюція індексаторів даних
Зі збільшенням кількості даних блокчейна зростає і потреба в індексаторах даних. Індексатори відіграють важливу роль в організації даних у ланцюжку та надсиланні їх до бази даних для легкого запиту. Індексатори працюють, індексуючи дані блокчейну та роблячи їх легкодоступними через SQL-подібну мову запитів (API, як GraphQL). Забезпечуючи уніфікований інтерфейс для запиту даних, індексатори дозволяють розробникам швидко й точно отримувати необхідну інформацію за допомогою стандартизованої мови запитів, що значно спрощує процес.
Різні типи індексаторів оптимізують пошук даних різними способами:
Індексатори повних вузлів: ці індексатори запускають повні вузли блокчейну та отримують дані безпосередньо з них, гарантуючи повність і точність даних, але потребують значної потужності для зберігання та обробки.
Полегшені індексатори: ці індексатори покладаються на повні вузли для отримання конкретних даних на вимогу, зменшуючи вимоги до пам’яті, але потенційно збільшуючи час запиту.
Спеціалізовані індексатори: ці індексатори спеціалізуються на певних типах даних або певних блокчейнах, оптимізуючи пошук для конкретних випадків використання, таких як дані NFT або транзакції DeFi.
Агреговані індексатори: ці індексатори отримують дані з кількох блокчейнів і джерел, включаючи інформацію поза ланцюгом, забезпечуючи уніфікований інтерфейс запитів, який особливо корисний для багатоланцюжкових dApps.
Наразі архівний режим Ethereum Archive Node у клієнті Geth займає приблизно 13,5 ТБ місця для зберігання, тоді як у клієнті Erigon вимога до архіву становить приблизно 3 ТБ. Оскільки блокчейн продовжує розвиватися, обсяг зберігання даних у вузлах архіву також буде збільшуватися. Зіштовхнувшись із такою величезною кількістю даних, основні протоколи індексаторів не лише підтримують багатоланцюжкове індексування, але й налаштовують структуру аналізу даних відповідно до потреб даних різних програм. Наприклад, фреймворк «Subgraph» The Graph є типовим випадком.
Поява індексаторів значно підвищила ефективність індексування даних і запитів. Індексатори можуть ефективно індексувати великі обсяги даних і підтримувати високошвидкісні запити порівняно з традиційними кінцевими точками RPC. Ці індексатори дозволяють користувачам виконувати складні запити, легко фільтрувати дані та аналізувати їх після вилучення. Крім того, деякі індексатори також підтримують агрегацію джерел даних із кількох блокчейнів, уникаючи проблеми необхідності розгортання кількох API у багатоланцюжкових dApps. Завдяки розподіленій роботі між кількома вузлами індексатор не тільки забезпечує кращу безпеку та продуктивність, але й зменшує ризик збоїв і простоїв, які можуть виникнути завдяки централізованому постачальнику RPC.
Навпаки, індексатор використовує попередньо визначену мову запитів, щоб дозволити користувачам безпосередньо отримувати необхідну інформацію без обробки основних складних даних. Цей механізм значно підвищує ефективність і надійність пошуку даних і є важливою інновацією в доступі до даних блокчейна.
2.4 Повноланцюгова база даних: вирівнювання потоку
Запит даних за допомогою вузлів індексу часто означає, що API стає єдиним порталом для аналізу даних у ланцюжку. Однак, коли проект переходить у фазу розширення, часто потрібні більш гнучкі джерела даних, які не можуть забезпечити стандартизовані API. Оскільки вимоги до додатків стають все більш складними, індексатори первинних даних і їх стандартизовані формати індексів поступово не можуть задовольнити дедалі різноманітніші вимоги до запитів, такі як пошук, міжланцюговий доступ або відображення даних поза ланцюгом.
У сучасних архітектурах конвеєрів даних з’явився підхід «спочатку потік» як вирішення обмежень традиційної пакетної обробки, що дозволяє приймати, обробляти та аналізувати дані в реальному часі. Ця зміна парадигми дозволяє організаціям миттєво реагувати на вхідні дані, що призводить до майже миттєвого розуміння та прийняття рішень. Подібним чином розвиток постачальників блокчейн-даних також рухається в напрямку побудови блокчейн-потоків даних. Традиційні постачальники послуг індексування послідовно запускають продукти, які отримують блокчейн-дані в режимі потоку даних, такі як The Graph's Substreams, Goldsky's Mirror. та інші озера даних у реальному часі, такі як Chainbase і SubSquid, які генерують потоки даних на основі блокчейну.
Ці служби розроблені для задоволення потреби в розборі транзакцій блокчейну в реальному часі та більш комплексних можливостях запитів. Подібно до того, як архітектура «спершу потік» революціонізує спосіб обробки та споживання даних у традиційних конвеєрах даних шляхом зменшення затримки та підвищення швидкості реагування, ці постачальники послуг потокового передавання даних у блокчейні також сподіваються підтримувати більш просунуті та зрілі джерела даних допомога в аналізі даних у мережі.
Переосмислення проблем, пов’язаних з даними в ланцюжку, через призму сучасних конвеєрів даних дозволяє нам побачити весь потенціал керування, зберігання та обслуговування даних у ланцюжку з абсолютно нової точки зору. Коли ми починаємо думати про такі індексатори, як subgraphs і Ethereum ETL, як про потоки даних у конвеєрі даних, а не про кінцевий результат, ми можемо уявити можливий світ, де високопродуктивні набори даних можна адаптувати до будь-якого бізнес-випадку використання.
3 ШІ + База даних? Поглиблене порівняння Граф, База даних, простір і час
3.1 Графік
Мережа Graph реалізує багатоланцюгові служби індексування даних і запитів через децентралізовану мережу вузлів, що дозволяє розробникам легко індексувати дані блокчейна та створювати децентралізовані програми. Основними моделями продукту є ринок виконання запитів даних і ринок кешування даних. Ці два ринки, по суті, обслуговують потреби користувачів у запитах на дані даних оплачується, а ринок кешу індексів даних — це ринок, на якому вузли індексів мобілізують ресурси на основі історичної популярності індексації субграфа, плати за запити та потреб кураторів у ланцюжку для виведення субграфа.
Підграфи є основною структурою даних у мережі The Graph. Вони визначають, як витягувати та перетворювати дані з блокчейну у формат, який можна запитувати (наприклад, схему GraphQL). Будь-хто може створювати підграфи, і кілька програм можуть повторно використовувати ці підграфи, що покращує повторне використання даних і ефективність використання.
Структура продукту Graph (Джерело: The Graph Whitepaper)
Мережа Graph складається з чотирьох ключових ролей: індексаторів, кураторів, делегатів і розробників, які працюють разом, щоб забезпечити роботу програм web3. Нижче наведено їхні відповідні обов'язки:
Indexer: Indexer — це оператор вузла в мережі The Graph. Вузли Index беруть участь у мережі, створюючи ставки GRT (власний токен The Graph) для надання послуг індексування та обробки запитів.
Делегатор: Делегатори — це користувачі, які роблять ставки токенів GRT для індексування вузлів для підтримки своїх операцій. Делегатори заробляють частину винагород через inode, яким вони делегують.
Куратор: куратор відповідає за сигналізацію, які підграфи повинні бути проіндексовані мережею. Куратори допомагають переконатися, що цінні підсюжети мають пріоритет.
Розробник: на відміну від перших трьох, які є стороною пропозиції, розробники є стороною попиту та є основними користувачами The Graph. Вони створюють і надсилають підграфи в мережу The Graph і чекають, поки мережа задовольнить попит на дані.
Наразі The Graph перейшов до комплексної децентралізованої служби розміщення субграфів, і між різними учасниками існують економічні стимули для забезпечення роботи системи:
Винагороди вузла індексу: вузли індексу отримують дохід за рахунок комісії за запити споживачів і частини винагороди за блок токенів GRT.
Винагороди для делегатів: Делегатори отримують частину винагороди через inode, які вони підтримують.
Винагороди кураторів: якщо куратори сигналізують про цінні підграфи, вони можуть отримати часткову винагороду з комісії за запити.
Фактично, продукти The Graph також швидко розвиваються в хвилі AI. Як одна з основних команд розробників екосистеми The Graph, Semiotic Labs прагне використовувати технологію штучного інтелекту для оптимізації ціноутворення індексів і взаємодії з користувачем. Наразі інструменти AutoAgora, Allocation Optimizer і AgentC, розроблені Semiotic Labs, покращують продуктивність екосистеми в багатьох аспектах.
AutoAgora запроваджує механізм динамічного ціноутворення для коригування цін у режимі реального часу на основі обсягу запитів та використання ресурсів, оптимізації стратегій ціноутворення та забезпечення конкурентоспроможності індексатора та максимізації доходу.
Оптимізатор розподілу вирішує складну проблему розподілу ресурсів підграфів і допомагає індексаторам досягти оптимального розподілу ресурсів для підвищення прибутку та продуктивності.
AgentC — це експериментальний інструмент, який покращує взаємодію з користувачем, надаючи користувачам доступ до даних блокчейну The Graph за допомогою природної мови.
Застосування цих інструментів дозволяє The Graph ще більше підвищити інтелектуальність і зручність системи за допомогою ШІ.
3.2 Ланцюгова база
Chainbase — це мережа даних із повним ланцюгом, яка об’єднує всі дані блокчейну в одну платформу, що полегшує розробникам створення та підтримку програм. Його унікальні особливості включають:
Озеро даних у режимі реального часу: Chainbase надає озеро даних у режимі реального часу спеціально для потокового передавання даних блокчейну, що робить дані миттєвими доступними під час їх створення.
Подвійна ланцюгова архітектура: Chainbase створює рівень виконання на основі Eigenlayer AVS для формування паралельної подвійної ланцюжкової архітектури з консенсусним алгоритмом CometBFT. Цей дизайн покращує програмованість і компонування міжланцюжкових даних, підтримує високу пропускну здатність, низьку затримку та остаточність, а також покращує мережеву безпеку за допомогою моделі подвійного забезпечення.
Інноваційний стандарт формату даних: Chainbase представила новий стандарт формату даних під назвою «рукописи» для оптимізації способу структурування та використання даних у криптоіндустрії.
Модель Cryptoworld. Завдяки величезним ресурсам даних блокчейну Chainbase поєднує технологію моделі ШІ для створення моделей ШІ, які можуть ефективно розуміти, прогнозувати та взаємодіяти з транзакціями блокчейну. Базова модель Theia тепер доступна для загального користування.
Завдяки цим функціям Chainbase виділяється серед протоколів індексації блокчейнів, приділяючи особливу увагу доступності даних у реальному часі, інноваційним форматам даних і створенню розумніших моделей для кращого аналізу завдяки поєднанню даних у ланцюзі та поза ним.
Модель ШІ Chainbase Theia є ключовою особливістю, яка відрізняє її від інших протоколів служби даних. Theia базується на моделі DORA, розробленій NVIDIA, поєднує дані в ланцюзі та поза ланцюгом, а також просторово-часові дії, вивчає та аналізує шаблони шифрування та реагує через причинно-наслідкові міркування, таким чином глибоко досліджуючи потенційну цінність і шаблони on ланцюжка даних і надання користувачам більш інтелектуалізованих послуг даних.
Сервіси передачі даних на основі ШІ роблять Chainbase не просто платформою для передачі даних у блокчейні, а більш конкурентоспроможним інтелектуальним постачальником послуг передачі даних. Завдяки потужним ресурсам даних і проактивному аналізу штучного інтелекту Chainbase може надати ширшу інформацію про дані та оптимізувати процеси обробки даних користувачів.
3.3 Простір і час
Space and Time (SxT) має на меті створити верифікований обчислювальний рівень, який поширює докази з нульовим знанням на децентралізовані сховища даних, щоб забезпечити надійну обробку даних для смарт-контрактів, великих мовних моделей і підприємств. «Простір і час» зібрали 20 мільйонів доларів у своєму останньому раунді фінансування серії A, який очолювали Framework Ventures, Lightspeed Faction, Arrington Capital і Hivemind Capital.
У сфері індексування та перевірки даних Space and Time представляє новий технічний шлях - Proof of SQL. Це інноваційна технологія захисту від нульових знань (ZKP), розроблена компанією Space and Time, яка гарантує, що SQL-запити, які виконуються в децентралізованому сховищі даних, захищені від несанкціонованого доступу та перевіряються. Коли виконується запит, Proof of SQL створює криптографічний доказ, який перевіряє цілісність і точність результатів запиту. Це підтвердження додається до результату запиту, що дозволяє будь-якому верифікатору (наприклад, смарт-контракту тощо) незалежно підтвердити, що дані не були підроблені під час обробки. Традиційні блокчейн-мережі зазвичай покладаються на механізми консенсусу для перевірки автентичності даних, тоді як Proof of SQL Space and Time реалізує більш ефективний метод перевірки даних. Зокрема, у системі Space and Time один вузол відповідає за отримання даних, тоді як інші вузли перевіряють справжність даних за допомогою технології zk. Цей метод змінює споживання ресурсів кількома вузлами, які неодноразово індексують ті самі дані за механізмом консенсусу, поки нарешті не буде досягнуто консенсусу для отримання даних, і покращує загальну продуктивність системи. У міру того, як ця технологія розвивається, вона створює сходинку для низки традиційних галузей, які зосереджуються на надійності даних для використання продуктів, структурованих даними, у блокчейні.
Водночас SxT тісно співпрацює з спільною інноваційною лабораторією Microsoft AI Joint Innovation Lab, щоб прискорити розробку генеративних інструментів штучного інтелекту, щоб полегшити користувачам обробку даних блокчейну за допомогою природної мови. Наразі в Space and Time Studio користувачі можуть вводити запити природною мовою, а AI автоматично перетворюватиме їх у SQL і виконуватиме оператори запитів від імені користувача, щоб представити кінцеві результати, які потрібні користувачеві.
3.4 Різницеве ​​порівняння
Висновок і перспектива
Підводячи підсумок, можна сказати, що технологія індексації даних блокчейну поступово вдосконалювалася від початкового джерела даних вузла, через розробку синтаксичного аналізу даних та індексаторів і, нарешті, до повноланцюжкових служб даних на основі штучного інтелекту. Постійний розвиток цих технологій не тільки покращує ефективність і точність доступу до даних, але й надає користувачам безпрецедентний інтелектуальний досвід.
Дивлячись у майбутнє, з безперервним розвитком нових технологій, таких як технологія штучного інтелекту та захист від нульових знань, служби даних блокчейну стануть інтелектуальними та безпечнішими. У нас є підстави вважати, що блокчейн-сервіси даних продовжуватимуть відігравати важливу роль як інфраструктура в майбутньому, забезпечуючи потужну підтримку розвитку галузі та інновацій.
Читання, індексування для аналізу, короткий вступ до доріжки індексування даних Web3

Перегляньте більше від автора

Останні новини