Čtení, indexování k analýze, stručný úvod k indexování dat Web3

1 Úvod
Počínaje první vlnou dApps Etheroll, ETHLend a CryptoKitties v roce 2017 až po šíření různých finančních, herních a sociálních dApps založených na různých blockchainech dnes, když mluvíme o decentralizovaných on-chain aplikacích, přemýšleli jsme o tom někdy? používají tyto dApps při svých interakcích zdroje různých dat?
V roce 2024 se zaměříme na AI a Web3 Ve světě umělé inteligence jsou data jako zdroj života pro svůj růst a vývoj. Stejně jako rostliny spoléhají na sluneční světlo a vlhkost, aby prosperovaly, systémy umělé inteligence také spoléhají na obrovské množství dat, aby se neustále „učily“ a „přemýšlely“. Bez dat nejsou algoritmy umělé inteligence, bez ohledu na to, jak jsou sofistikované, ničím jiným než vzdušnými hrady, které nejsou schopny uplatnit svou patřičnou inteligenci a efektivitu.
Tento článek poskytuje hloubkovou analýzu vývoje indexování dat blockchainu během vývoje odvětví z pohledu dostupnosti dat blockchainu (Data Accessibility) a porovnává starý protokol indexování dat The Graph s nově vznikajícím protokolem blockchainové datové služby Chainbase. a Space and Time, konkrétně zkoumající podobnosti a rozdíly v datových službách a funkcích architektury produktů těchto dvou nových protokolů, které kombinují technologii AI.
2 Složitost a jednoduchost indexu dat: od blockchain uzlu po full-chain databázi
2.1 Zdroj dat: blockchain uzel
Od začátku pochopení „co je blockchain“ často vidíme tuto větu: blockchain je decentralizovaná účetní kniha. Blockchainové uzly jsou základem celé blockchainové sítě a jsou zodpovědné za záznam, ukládání a šíření všech transakčních dat v řetězci. Každý uzel má kompletní kopii blockchainových dat, což zajišťuje zachování decentralizovaného charakteru sítě. Pro běžné uživatele však není snadné vytvořit a udržovat blockchainový uzel. To vyžaduje nejen profesionální technické dovednosti, ale také vysoké náklady na hardware a šířku pásma. Současně mají běžné uzly omezené možnosti dotazování a nemohou dotazovat data ve formátu požadovaném vývojáři. I když tedy teoreticky může každý provozovat svůj vlastní uzel, v praxi se uživatelé často raději spoléhají na služby třetích stran.
K vyřešení tohoto problému se objevili poskytovatelé uzlů RPC (remote procedure call). Tito poskytovatelé jsou odpovědní za náklady a správu uzlů a poskytují data prostřednictvím koncových bodů RPC. To umožňuje uživatelům snadný přístup k blockchainovým datům bez vytváření vlastních uzlů. Veřejné koncové body RPC jsou zdarma, ale přicházejí s limity sazeb, které mohou negativně ovlivnit uživatelskou zkušenost dApp. Soukromé koncové body RPC poskytují lepší výkon snížením přetížení, ale i jednoduché načítání dat vyžaduje hodně komunikace tam a zpět. Díky tomu jsou náročné na požadavky a jsou neefektivní pro složité dotazy na data. Soukromé koncové body RPC je navíc často obtížné škálovat a postrádají kompatibilitu napříč různými sítěmi. Standardizované rozhraní API poskytovatele uzlů však poskytuje uživatelům nižší práh pro přístup k datům v řetězci, čímž je položen základ pro následnou analýzu dat a aplikaci.
2.2 Analýza dat: od prototypových dat k použitelným datům
Data získaná z uzlů blockchainu jsou často zašifrovaná a zakódovaná nezpracovaná data. Přestože si tato data zachovávají integritu a bezpečnost blockchainu, jejich složitost také zvyšuje obtížnost analýzy dat. Pro běžné uživatele nebo vývojáře vyžaduje přímé zpracování těchto prototypových dat mnoho technických znalostí a výpočetních zdrojů.
V této souvislosti je zvláště důležitý proces analýzy dat. Díky analýze složitých prototypových dat do formátu, který je snazší pochopit a ovládat, mohou uživatelé chápat a využívat data intuitivněji. Úspěch analýzy dat přímo určuje efektivitu a efekt aplikace blockchainových dat a je klíčovým krokem v celém procesu indexování dat.
2.3 Vývoj datových indexerů
S rostoucím množstvím blockchainových dat roste i potřeba datových indexerů. Indexery hrají zásadní roli při organizování dat v řetězci a jejich odesílání do databáze pro snadné dotazování. Indexery fungují tak, že indexují data blockchainu a zpřístupňují je prostřednictvím dotazovacího jazyka podobného SQL (API jako GraphQL). Poskytnutím jednotného rozhraní pro dotazování dat umožňují indexátory vývojářům rychle a přesně získávat požadované informace pomocí standardizovaného dotazovacího jazyka, což značně zjednodušuje proces.
Různé typy indexátorů optimalizují načítání dat různými způsoby:
Full node indexers: Tyto indexery provozují plné blockchainové uzly a vytahují data přímo z nich, čímž zajišťují, že data jsou úplná a přesná, ale vyžadují značný úložný a zpracovatelský výkon.
Lehké indexátory: Tyto indexátory se spoléhají na úplné uzly k načítání konkrétních dat na vyžádání, čímž snižují požadavky na úložiště, ale potenciálně prodlužují dobu dotazování.
Specializované indexátory: Tyto indexátory se specializují na určité typy dat nebo specifické blockchainy a optimalizují načítání pro konkrétní případy použití, jako jsou data NFT nebo transakce DeFi.
Agregované indexery: Tyto indexátory získávají data z více blockchainů a zdrojů, včetně informací mimo řetězec, a poskytují jednotné rozhraní dotazů, které je užitečné zejména pro víceřetězcové dApps.
V současné době zabírá archivační režim Ethereum Archive Node v klientovi Geth přibližně 13,5 TB úložného prostoru, zatímco v rámci klienta Erigon je požadavek na archivaci přibližně 3 TB. Vzhledem k tomu, že blockchain stále roste, poroste také množství datových úložišť v archivních uzlech. Tváří v tvář tak obrovskému množství dat, mainstreamové indexovací protokoly nejen podporují víceřetězcové indexování, ale také přizpůsobují rámce analýzy dat podle datových potřeb různých aplikací. Typickým případem je například rámec „Subgraph“ The Graph.
Vznik indexátorů výrazně zlepšil efektivitu indexování dat a dotazování. Indexery mohou efektivně indexovat velká množství dat a podporovat vysokorychlostní dotazy ve srovnání s tradičními koncovými body RPC. Tyto indexátory umožňují uživatelům provádět složité dotazy, snadno filtrovat data a analyzovat je po extrakci. Kromě toho některé indexátory také podporují agregaci zdrojů dat z více blockchainů, čímž se vyhnou problému nutnosti nasazení více API ve víceřetězcových dApps. Díky distribuci distribuovaného mezi více uzly poskytuje indexer nejen vyšší zabezpečení a výkon, ale také snižuje riziko narušení a prostojů, které mohou přijít s centralizovaným poskytovatelem RPC.
Naproti tomu indexer používá předdefinovaný dotazovací jazyk, který uživatelům umožňuje přímo získat požadované informace bez zpracování základních komplexních dat. Tento mechanismus výrazně zlepšuje efektivitu a spolehlivost získávání dat a je důležitou inovací v přístupu k datům blockchain.
2.4 Celořetězcová databáze: zarovnání jako první proud
Dotazování na data pomocí indexových uzlů často znamená, že API se stává jediným portálem pro zpracování dat v řetězci. Když však projekt vstoupí do fáze rozšiřování, často jsou vyžadovány flexibilnější zdroje dat, které standardizovaná rozhraní API nemohou poskytnout. S tím, jak se požadavky na aplikace stávají složitějšími, primární datové indexátory a jejich standardizované formáty indexů postupně nejsou schopny splnit stále rozmanitější požadavky na dotazy, jako je vyhledávání, křížový přístup nebo mapování dat mimo řetězec.
V moderních architekturách datového potrubí se objevil přístup „stream-first“ jako řešení omezení tradičního dávkového zpracování, který umožňuje příjem, zpracování a analýzu dat v reálném čase. Tato změna paradigmatu umožňuje organizacím okamžitě reagovat na příchozí data, což vede k téměř okamžitým poznatkům a rozhodnutím. Podobně se vývoj poskytovatelů blockchainových datových služeb také ubírá směrem k budování blockchainových datových toků Tradiční poskytovatelé indexovacích služeb postupně uvedli na trh produkty, které získávají data z blockchainu v reálném čase způsobem datového toku, jako jsou The Graph's Substreams, Goldsky's Mirror. a další datová jezera v reálném čase, jako je Chainbase a SubSquid, která generují datové toky založené na blockchainu.
Tyto služby jsou navrženy tak, aby řešily potřebu analýzy blockchainových transakcí v reálném čase a komplexnějších možností dotazování. Stejně jako architektura „stream-first“ revolucionizuje způsob zpracování a spotřeby dat v tradičních datových kanálech snížením latence a zlepšením odezvy, i tito poskytovatelé služeb streamování dat blockchain doufají, že budou podporovat více prostřednictvím pokročilejších a vyspělejších zdrojů dat pomoc při analýze dat v řetězci.
Předefinování výzev souvisejících s daty v řetězci optikou moderních datových kanálů nám umožňuje vidět plný potenciál správy, ukládání a poskytování dat v řetězci ze zcela nové perspektivy. Když začneme uvažovat o indexerech, jako jsou podgrafy a Ethereum ETL, jako o datových tocích v datovém potrubí spíše než o konečném výstupu, můžeme si představit možný svět, kde lze vysoce výkonné datové sady přizpůsobit jakémukoli případu obchodního použití.
3 AI + databáze Hloubkové srovnání Graf, Chainbase, Space and Time
3.1 Graf
Síť Graph implementuje víceřetězcové indexování dat a služby dotazů prostřednictvím decentralizované sítě uzlů, což umožňuje vývojářům snadno indexovat data blockchainu a vytvářet decentralizované aplikace. Jeho hlavními produktovými modely jsou trh pro provádění dotazů na data a trh s ukládáním datových indexů do mezipaměti dat je placeno a trh mezipaměti datového indexu je trh, na kterém indexové uzly mobilizují zdroje na základě historické popularity podgrafu, účtovaných poplatků za dotazy a potřeb on-chain kurátorů pro výstup podgrafu. .
Podgrafy jsou základní datovou strukturou v síti The Graph. Definují, jak extrahovat a transformovat data z blockchainu do dotazovatelného formátu (jako je schéma GraphQL). Každý může vytvářet podgrafy a více aplikací může tyto podgrafy znovu používat, což zlepšuje znovupoužitelnost dat a efektivitu využití.
Struktura produktu Graph (zdroj: The Graph Whitepaper)
Síť Graph se skládá ze čtyř klíčových rolí: indexátoři, kurátoři, delegáti a vývojáři, kteří spolupracují na podpoře webových3 aplikací. Jejich příslušné odpovědnosti jsou následující:
Indexer: Indexer je operátor uzlu v síti The Graph Uzly indexu se podílejí na síti tím, že vkládají GRT (nativní token The Graph), aby poskytovaly služby indexování a zpracování dotazů.
Delegátor: Delegátoři jsou uživatelé, kteří vkládají tokeny GRT do indexových uzlů, aby podpořili své operace. Delegátoři získávají část odměn prostřednictvím inodů, na které delegují.
Kurátor: Kurátor je zodpovědný za signalizaci, které podgrafy by měla síť indexovat. Kurátoři pomáhají zajistit, aby cenné dílčí zápletky byly upřednostňovány.
Vývojář: Na rozdíl od prvních tří, kteří jsou stranou nabídky, jsou vývojáři stranou poptávky a jsou hlavními uživateli The Graph. Vytvářejí a odesílají podgrafy do sítě The Graph a čekají, až síť uspokojí data poptávky.
V současné době se The Graph přesunul na komplexní decentralizovanou službu hostování podgrafů a mezi různými účastníky kolují ekonomické pobídky k zajištění provozu systému:
Odměny indexových uzlů: Indexové uzly získávají příjmy prostřednictvím poplatků za spotřebitelské dotazy a části odměny za blok tokenu GRT.
Odměny delegátů: Delegátoři obdrží část odměn prostřednictvím inodů, které podporují.
Odměny kurátorů: Pokud kurátoři signalizují hodnotné podgrafy, mohou získat částečné odměny z poplatků za dotazy.
Ve skutečnosti se produkty The Graph také rychle vyvíjejí na vlně AI. Jako jeden z hlavních vývojových týmů ekosystému The Graph se společnost Semiotic Labs zavázala používat technologii AI k optimalizaci cen indexů a uživatelských dotazů. V současné době každý z nástrojů AutoAgora, Allocation Optimizer a AgentC vyvinutých společností Semiotic Labs zlepšuje výkon ekosystému v mnoha aspektech.
AutoAgora zavádí dynamický cenový mechanismus pro úpravu cen v reálném čase na základě objemu dotazů a využití zdrojů, optimalizaci cenových strategií a zajištění konkurenceschopnosti indexeru a maximalizace výnosů.
Allocation Optimizer řeší složitý problém alokace zdrojů podgrafů a pomáhá indexátorům dosáhnout optimální alokace zdrojů pro zlepšení příjmů a výkonu.
AgentC je experimentální nástroj, který zlepšuje uživatelskou zkušenost tím, že uživatelům umožňuje přistupovat k blockchainovým datům The Graph prostřednictvím přirozeného jazyka.
Aplikace těchto nástrojů umožňuje The Graph dále zlepšit inteligenci a uživatelskou přívětivost systému s pomocí AI.
3.2 Základna řetězu
Chainbase je full-chain datová síť, která integruje všechna blockchain data do jedné platformy, což vývojářům usnadňuje vytváření a údržbu aplikací. Mezi jeho jedinečné vlastnosti patří:
Jezero dat v reálném čase: Chainbase poskytuje jezero dat v reálném čase speciálně pro streamování dat blockchain, díky čemuž jsou data okamžitě přístupná, jakmile jsou generována.
Dvouřetězcová architektura: Chainbase vytváří prováděcí vrstvu založenou na Eigenlayer AVS, aby vytvořila paralelní dvouřetězcovou architekturu s konsenzuálním algoritmem CometBFT. Tento návrh vylepšuje programovatelnost a komponovatelnost meziřetězcových dat, podporuje vysokou propustnost, nízkou latenci a finalitu a zlepšuje zabezpečení sítě prostřednictvím modelu s duálním zajištěním.
Inovativní standard formátu dat: Společnost Chainbase zavedla nový standard formátu dat nazvaný „rukopisy“, aby optimalizoval způsob, jakým jsou data strukturována a využívána v kryptoprůmyslu.
Model Cryptoworld: Chainbase využívá své rozsáhlé blockchainové datové zdroje a kombinuje technologii modelu AI a vytváří modely AI, které dokážou efektivně porozumět, předvídat a interagovat s blockchainovými transakcemi. Základní model Theia je nyní k dispozici pro veřejné použití.
Díky těmto funkcím vyniká Chainbase mezi blockchainovými indexovacími protokoly se zvláštním zaměřením na dostupnost dat v reálném čase, inovativní datové formáty a vytváření chytřejších modelů pro lepší přehled prostřednictvím kombinace dat v řetězci a mimo něj.
Model AI Theia společnosti Chainbase je klíčovým prvkem, který jej odlišuje od jiných protokolů datových služeb. Theia je založena na modelu DORA vyvinutém společností NVIDIA, kombinuje on-chain a off-chain data a časoprostorové aktivity, učí se a analyzuje šifrovací vzorce a reaguje prostřednictvím kauzálního uvažování, čímž hluboce zkoumá potenciální hodnotu a vzorce on-chain. data a poskytuje uživatelům inteligentnější datové služby.
Datové služby poháněné umělou inteligencí dělají z Chainbase již jen platformu blockchainových datových služeb, ale konkurenceschopnějšího poskytovatele inteligentních datových služeb. Díky výkonným datovým zdrojům a proaktivní analýze AI je Chainbase schopna poskytnout širší pohled na data a optimalizovat procesy zpracování dat uživatelů.
3.3 Prostor a čas
Space and Time (SxT) si klade za cíl vytvořit ověřitelnou výpočetní vrstvu, která rozšiřuje důkazy s nulovými znalostmi o decentralizovaných datových skladech, aby poskytovala důvěryhodné zpracování dat pro chytré kontrakty, velké jazykové modely a podniky. Společnost Space and Time získala ve svém posledním kole financování série A 20 milionů dolarů, vedené společnostmi Framework Ventures, Lightspeed Faction, Arrington Capital a Hivemind Capital.
V oblasti indexování a validace dat představuje Space and Time novou technickou cestu – Proof of SQL. Jedná se o inovativní technologii zero-knowledge proof (ZKP) vyvinutou společností Space and Time, která zajišťuje, že dotazy SQL prováděné v decentralizovaném datovém skladu jsou odolné proti neoprávněné manipulaci a ověřitelné. Když je dotaz spuštěn, Proof of SQL generuje kryptografický důkaz, který ověřuje integritu a přesnost výsledků dotazu. Tento důkaz je připojen k výsledku dotazu a umožňuje jakémukoli ověřovateli (jako je inteligentní smlouva atd.) nezávisle potvrdit, že s údaji během zpracování nebylo manipulováno. Tradiční blockchainové sítě obvykle spoléhají na konsensuální mechanismy k ověření pravosti dat, zatímco Space and Time’s Proof of SQL implementuje efektivnější metodu ověřování dat. Konkrétně v systému Space and Time je jeden uzel zodpovědný za získávání dat, zatímco ostatní uzly ověřují pravost dat prostřednictvím technologie zk. Tato metoda mění spotřebu zdrojů více uzlů, které opakovaně indexují stejná data v rámci mechanismu konsensu, dokud není nakonec dosaženo konsensu pro získání dat, a zlepšuje celkový výkon systému. Jak tato technologie dozrává, vytváří odrazový můstek pro řadu tradičních průmyslových odvětví, která se zaměřují na spolehlivost dat, aby mohly využívat produkty s datovou strukturou na blockchainu.
SxT zároveň úzce spolupracuje s Microsoft AI Joint Innovation Lab na urychlení vývoje generativních nástrojů AI, které uživatelům usnadní zpracování blockchainových dat prostřednictvím přirozeného jazyka. V současné době v Space and Time Studio mohou uživatelé zažít zadávání dotazů v přirozeném jazyce a AI je automaticky převede na SQL a provede příkazy dotazů jménem uživatele, aby předložila konečné výsledky, které uživatel potřebuje.
3.4 Porovnání rozdílů
Závěr a výhled
Abychom to shrnuli, technologie blockchainu pro indexování dat prošla procesem postupného zlepšování od počátečního zdroje dat uzlů, přes vývoj datové analýzy a indexerů a nakonec až po full-chain datové služby s podporou AI. Neustálý vývoj těchto technologií nejen zlepšuje efektivitu a přesnost přístupu k datům, ale také přináší uživatelům nebývalé inteligentní zkušenosti.
Při pohledu do budoucnosti s neustálým vývojem nových technologií, jako je technologie AI a důkaz s nulovými znalostmi, budou datové služby blockchainu ještě inteligentní a bezpečné. Máme důvod se domnívat, že datové služby blockchainu budou i v budoucnu hrát důležitou roli jako infrastruktura a budou poskytovat silnou podporu pro průmyslový pokrok a inovace.
Čtení, indexování k analýze, stručný úvod k indexování dat Web3

Prozkoumat více od tvůrce

Nejnovější zprávy