Czytanie, indeksowanie do analizy, krótkie wprowadzenie do ścieżki indeksowania danych Web3

1 Wprowadzenie
Począwszy od pierwszej fali dApps Etheroll, ETHLend i CryptoKitties w 2017 r., aż po rozprzestrzenianie się różnych dApps finansowych, gamingowych i społecznościowych opartych na różnych blockchainach, czy kiedykolwiek o tym myśleliśmy, gdy mówimy o zdecentralizowanych aplikacjach on-chain? czy są źródła różnych danych wykorzystywanych przez te dApps w ich interakcjach?
W 2024 r. nacisk zostanie położony na sztuczną inteligencję i Internet3. W świecie sztucznej inteligencji dane są źródłem życia dla jego wzrostu i ewolucji. Tak jak rośliny, aby się rozwijać, potrzebują światła słonecznego i wilgoci, tak systemy sztucznej inteligencji również korzystają z ogromnych ilości danych, aby stale „uczyć się” i „myśleć”. Bez danych algorytmy sztucznej inteligencji, niezależnie od tego, jak bardzo są wyrafinowane, są niczym więcej niż zamkami w powietrzu, które nie są w stanie wykorzystać swojej należytej inteligencji i skuteczności.
W artykule dokonano dogłębnej analizy ewolucji indeksowania danych blockchain w trakcie rozwoju branży z punktu widzenia dostępności danych blockchain (Data Accessibility) oraz porównano stary protokół indeksowania danych The Graph z powstającym protokołem usługi danych blockchain Chainbase oraz Przestrzeń i Czas, w szczególności badając podobieństwa i różnice w usługach danych i cechach architektury produktów tych dwóch nowych protokołów, które łączą technologię sztucznej inteligencji.
2 Złożoność i prostota indeksu danych: od węzła blockchain do pełnołańcuchowej bazy danych
2.1 Źródło danych: węzeł blockchain
Od początku rozumienia „czym jest blockchain” często spotykamy się z tym zdaniem: blockchain to zdecentralizowana księga rachunkowa. Węzły Blockchain stanowią fundament całej sieci blockchain i odpowiadają za rejestrowanie, przechowywanie i rozpowszechnianie wszystkich danych transakcyjnych w łańcuchu. Każdy węzeł posiada pełną kopię danych blockchain, zapewniając zachowanie zdecentralizowanego charakteru sieci. Jednak zwykłym użytkownikom nie jest łatwo zbudować i utrzymać węzeł blockchain. Wymaga to nie tylko profesjonalnych umiejętności technicznych, ale wiąże się również z wysokimi kosztami sprzętu i przepustowości. Jednocześnie zwykłe węzły mają ograniczone możliwości zapytań i nie mogą wysyłać zapytań o dane w formacie wymaganym przez programistów. Tak więc, choć teoretycznie każdy może uruchomić swój własny węzeł, w praktyce użytkownicy często wolą polegać na usługach stron trzecich.
Aby rozwiązać ten problem, pojawili się dostawcy węzłów RPC (zdalne wywoływanie procedur). Dostawcy ci są odpowiedzialni za koszty i zarządzanie węzłami oraz dostarczają dane za pośrednictwem punktów końcowych RPC. Umożliwia to użytkownikom łatwy dostęp do danych blockchain bez konieczności budowania własnych węzłów. Publiczne punkty końcowe RPC są bezpłatne, ale mają ograniczenia szybkości, które mogą negatywnie wpłynąć na wygodę użytkownika dApp. Prywatne punkty końcowe RPC zapewniają lepszą wydajność poprzez zmniejszenie zatorów, ale nawet proste pobieranie danych wymaga dużej ilości komunikacji tam i z powrotem. To sprawia, że ​​wymagają dużej liczby żądań i są nieefektywne w przypadku złożonych zapytań o dane. Ponadto prywatne punkty końcowe RPC są często trudne do skalowania i brakuje im kompatybilności w różnych sieciach. Jednak ustandaryzowany interfejs API dostawcy węzła zapewnia użytkownikom niższy próg dostępu do danych w łańcuchu, kładąc podwaliny pod późniejszą analizę i zastosowanie danych.
2.2 Analiza danych: od danych prototypowych do danych użytkowych
Dane uzyskane z węzłów blockchain są często szyfrowanymi i kodowanymi danymi surowymi. Chociaż dane te zachowują integralność i bezpieczeństwo łańcucha bloków, ich złożoność zwiększa również trudność analizy danych. Dla zwykłych użytkowników lub programistów bezpośrednie przetwarzanie tych danych prototypowych wymaga dużej wiedzy technicznej i zasobów obliczeniowych.
Proces analizy danych jest w tym kontekście szczególnie istotny. Analizując złożone dane prototypowe do formatu łatwiejszego do zrozumienia i obsługi, użytkownicy mogą zrozumieć i wykorzystać dane w bardziej intuicyjny sposób. Sukces analizy danych bezpośrednio determinuje efektywność i efekt zastosowania danych blockchain i jest kluczowym krokiem w całym procesie indeksowania danych.
2.3 Ewolucja indeksatorów danych
Wraz ze wzrostem ilości danych w łańcuchu bloków rośnie zapotrzebowanie na indeksatory danych. Indeksatory odgrywają kluczową rolę w organizowaniu danych w łańcuchu i wysyłaniu ich do bazy danych w celu łatwego wykonywania zapytań. Indeksatory działają poprzez indeksowanie danych łańcucha bloków i udostępnianie ich za pomocą języka zapytań podobnego do SQL (interfejsy API takie jak GraphQL). Zapewniając ujednolicony interfejs do wykonywania zapytań o dane, indeksatory umożliwiają programistom szybkie i dokładne pobieranie potrzebnych informacji przy użyciu ustandaryzowanego języka zapytań, co znacznie upraszcza proces.
Różne typy indeksatorów optymalizują pobieranie danych na różne sposoby:
Indeksatory pełnych węzłów: te indeksatory obsługują pełne węzły łańcucha bloków i pobierają dane bezpośrednio z nich, zapewniając, że dane są kompletne i dokładne, ale wymagają znacznej mocy przechowywania i przetwarzania.
Lekkie indeksatory: te indeksatory polegają na pełnych węzłach w celu pobierania określonych danych na żądanie, co zmniejsza wymagania dotyczące magazynu, ale potencjalnie wydłuża czas zapytań.
Wyspecjalizowane indeksatory: te indeksatory specjalizują się w określonych typach danych lub określonych łańcuchach bloków, optymalizując pobieranie dla określonych przypadków użycia, takich jak dane NFT lub transakcje DeFi.
Zagregowane indeksatory: te indeksatory pobierają dane z wielu łańcuchów bloków i źródeł, w tym informacje spoza łańcucha, zapewniając ujednolicony interfejs zapytań, który jest szczególnie przydatny w przypadku wielołańcuchowych aplikacji dApp.
Obecnie tryb archiwizacji węzła archiwum Ethereum w kliencie Geth zajmuje około 13,5 TB przestrzeni dyskowej, podczas gdy w kliencie Erigon wymagania dotyczące archiwizacji wynoszą około 3 TB. W miarę dalszego rozwoju blockchainu, zwiększy się także ilość przechowywanych danych w węzłach archiwalnych. W obliczu tak ogromnej ilości danych główne protokoły indeksujące nie tylko obsługują indeksowanie wielołańcuchowe, ale także dostosowują struktury analizowania danych do potrzeb danych różnych aplikacji. Typowym przypadkiem jest na przykład platforma „Subgraph” firmy The Graph.
Pojawienie się indeksatorów znacznie poprawiło efektywność indeksowania danych i wykonywania zapytań. Indeksatory mogą skutecznie indeksować duże ilości danych i obsługiwać szybkie zapytania w porównaniu z tradycyjnymi punktami końcowymi RPC. Te indeksatory umożliwiają użytkownikom wykonywanie złożonych zapytań, łatwe filtrowanie danych i analizowanie ich po wyodrębnieniu. Ponadto niektóre indeksatory obsługują także agregację źródeł danych z wielu łańcuchów bloków, co pozwala uniknąć problemu konieczności wdrażania wielu interfejsów API w wielołańcuchowych aplikacjach dApp. Dzięki działaniu rozproszonemu w wielu węzłach indeksator nie tylko zapewnia większe bezpieczeństwo i wydajność, ale także zmniejsza ryzyko zakłóceń i przestojów, które mogą wystąpić w przypadku scentralizowanego dostawcy RPC.
Natomiast moduł indeksujący używa predefiniowanego języka zapytań, aby umożliwić użytkownikom bezpośrednie uzyskanie wymaganych informacji bez przetwarzania złożonych danych. Mechanizm ten znacząco poprawia efektywność i niezawodność wyszukiwania danych i stanowi ważną innowację w dostępie do danych blockchain.
2.4 Baza danych z pełnym łańcuchem: wyrównanie w pierwszym strumieniu
Wykonywanie zapytań o dane przy użyciu węzłów indeksu często oznacza, że ​​interfejs API staje się jedynym portalem do przetwarzania danych w górę łańcucha. Jednak gdy projekt wchodzi w fazę rozbudowy, często wymagane są bardziej elastyczne źródła danych, których nie mogą zapewnić standardowe interfejsy API. W miarę jak wymagania aplikacji stają się coraz bardziej złożone, podstawowe indeksatory danych i ich ustandaryzowane formaty indeksów stopniowo nie są w stanie sprostać coraz bardziej zróżnicowanym wymaganiom dotyczącym zapytań, takim jak wyszukiwanie, dostęp między łańcuchami czy mapowanie danych poza łańcuchem.
W nowoczesnych architekturach potoków danych pojawiło się podejście „najpierw strumień” jako rozwiązanie ograniczeń tradycyjnego przetwarzania wsadowego, umożliwiające pozyskiwanie, przetwarzanie i analizę danych w czasie rzeczywistym. Ta zmiana paradygmatu umożliwia organizacjom natychmiastowe reagowanie na napływające dane, co skutkuje niemal natychmiastowymi spostrzeżeniami i decyzjami. Podobnie rozwój dostawców usług danych blockchain zmierza również w kierunku budowania strumieni danych blockchain Tradycyjni dostawcy usług indeksujących sukcesywnie wprowadzali na rynek produkty, które pozyskują dane blockchain w czasie rzeczywistym w sposób strumienia danych, takie jak The Graph’s Substreams, Goldsky’s Mirror. oraz inne jeziora danych czasu rzeczywistego, takie jak Chainbase i SubSquid, które generują strumienie danych w oparciu o łańcuch bloków.
Usługi te mają na celu zaspokojenie potrzeby analizowania transakcji blockchain w czasie rzeczywistym i bardziej wszechstronnych możliwości zapytań. Tak jak architektura „stream-first” rewolucjonizuje sposób przetwarzania i wykorzystywania danych w tradycyjnych potokach danych, zmniejszając opóźnienia i zwiększając responsywność, tak dostawcy usług strumieniowego przesyłania danych typu blockchain również mają nadzieję na większe wsparcie poprzez bardziej zaawansowane i dojrzałe źródła danych pomoc w analizie danych w łańcuchu.
Ponowne zdefiniowanie wyzwań związanych z danymi w łańcuchu danych przez pryzmat nowoczesnych potoków danych pozwala nam zobaczyć pełny potencjał zarządzania, przechowywania i udostępniania danych w łańcuchu z zupełnie nowej perspektywy. Kiedy zaczniemy myśleć o indeksatorach takich jak subgraphs i Ethereum ETL jako o przepływach danych w potoku danych, a nie o ostatecznym wyniku, możemy wyobrazić sobie możliwy świat, w którym wysokowydajne zbiory danych można dostosować do dowolnego przypadku użycia biznesowego.
3 AI + baza danych? Dogłębne porównanie Wykres, baza łańcuchowa, przestrzeń i czas
3.1 Wykres
Sieć Graph wdraża wielołańcuchowe usługi indeksowania i wysyłania zapytań za pośrednictwem zdecentralizowanej sieci węzłów, umożliwiając programistom łatwe indeksowanie danych typu blockchain i tworzenie zdecentralizowanych aplikacji. Jego głównymi modelami produktów są rynek wykonywania zapytań o dane i rynek buforowania indeksów danych. Te dwa rynki zasadniczo zaspokajają potrzeby użytkowników w zakresie zapytań o dane. Rynek wykonywania zapytań o dane odnosi się w szczególności do konsumentów wybierających odpowiedniego dostawcę wymaganych danych danych jest płaconych, a rynek pamięci podręcznej indeksów danych to rynek, na którym węzły indeksu mobilizują zasoby w oparciu o historyczną popularność indeksowania podgrafu, pobierane opłaty za zapytania oraz potrzeby kuratorów w łańcuchu w zakresie wyników podgrafów .
Podgrafy to podstawowa struktura danych w sieci The Graph. Definiują sposób wyodrębniania i przekształcania danych z łańcucha bloków do formatu, w którym można wykonywać zapytania (takiego jak schemat GraphQL). Każdy może tworzyć podgrafy, a wiele aplikacji może ponownie wykorzystywać te podgrafy, co poprawia możliwość ponownego wykorzystania danych i efektywność wykorzystania.
Struktura produktu Graph (źródło: oficjalny dokument The Graph)
Sieć Graph składa się z czterech kluczowych ról: indeksatorów, kuratorów, delegatów i programistów, którzy współpracują, aby zasilać aplikacje web3. Poniżej przedstawiono ich odpowiednie obowiązki:
Indexer: Indexer jest operatorem węzła w sieci The Graph. Węzły Index uczestniczą w sieci poprzez stakowanie GRT (natywny token The Graph) w celu świadczenia usług indeksowania i przetwarzania zapytań.
Delegator: Delegatorzy to użytkownicy, którzy umieszczają tokeny GRT w węzłach indeksujących w celu wspierania swoich operacji. Delegaci zdobywają część nagród poprzez i-węzły, do których delegują.
Kurator: Kurator odpowiada za sygnalizowanie, które podgrafy powinny być indeksowane przez sieć. Kuratorzy pomagają zapewnić priorytetowe traktowanie wartościowych wątków pobocznych.
Deweloper: W przeciwieństwie do trzech pierwszych, którzy reprezentują stronę podaży, programiści reprezentują stronę popytu i są głównymi użytkownikami The Graph. Tworzą i przesyłają podgrafy do sieci The Graph i czekają, aż sieć zaspokoi zapotrzebowanie na dane.
Obecnie The Graph przeszedł na kompleksową zdecentralizowaną usługę hostingu subgraphów, a pomiędzy różnymi uczestnikami krążą zachęty ekonomiczne, aby zapewnić działanie systemu:
Nagrody za węzły indeksowe: węzły indeksowe uzyskują przychody dzięki opłatom za zapytania konsumenckie i części nagrody za blok tokenów GRT.
Nagrody dla osób delegujących: Osoby delegujące otrzymują część nagród za pośrednictwem obsługiwanych przez siebie i-węzłów.
Nagrody dla kuratorów: Jeśli kuratorzy zgłoszą wartościowe podgrafy, mogą otrzymać częściową nagrodę w postaci opłat za zapytania.
Tak naprawdę produkty The Graph również szybko rozwijają się na fali sztucznej inteligencji. Jako jeden z głównych zespołów programistycznych ekosystemu The Graph, firma Semiotic Labs zobowiązała się do wykorzystania technologii sztucznej inteligencji w celu optymalizacji cen indeksów i obsługi zapytań użytkowników. Obecnie narzędzia AutoAgora, Allocation Optimizer i AgentC opracowane przez Semiotic Labs poprawiają wydajność ekosystemu w wielu aspektach.
AutoAgora wprowadza mechanizm dynamicznej wyceny, który pozwala na dostosowywanie cen w czasie rzeczywistym w oparciu o liczbę zapytań i wykorzystanie zasobów, optymalizuje strategie cenowe oraz zapewnia konkurencyjność indeksatora i maksymalizację przychodów.
Allocation Optimizer rozwiązuje złożony problem alokacji zasobów podgrafów i pomaga indeksatorom osiągnąć optymalną alokację zasobów w celu poprawy przychodów i wydajności.
AgentC to eksperymentalne narzędzie, które poprawia komfort użytkowania, umożliwiając użytkownikom dostęp do danych blockchain The Graph za pomocą języka naturalnego.
Zastosowanie tych narzędzi umożliwia The Graph dalsze zwiększanie inteligencji i przyjazności dla użytkownika systemu dzięki wsparciu AI.
3.2 Podstawa łańcucha
Chainbase to pełnołańcuchowa sieć danych, która integruje wszystkie dane blockchain w jedną platformę, ułatwiając programistom tworzenie i utrzymywanie aplikacji. Jego unikalne cechy obejmują:
Jezioro danych w czasie rzeczywistym: Chainbase udostępnia jezioro danych w czasie rzeczywistym, przeznaczone specjalnie do strumieniowego przesyłania danych w technologii blockchain, dzięki czemu dane są natychmiast dostępne po ich wygenerowaniu.
Architektura dwułańcuchowa: Chainbase buduje warstwę wykonawczą w oparciu o Eigenlayer AVS, tworząc równoległą architekturę dwułańcuchową z algorytmem konsensusu CometBFT. Konstrukcja ta zwiększa programowalność i komponowalność danych między łańcuchami, obsługuje wysoką przepustowość, małe opóźnienia i finalność, a także poprawia bezpieczeństwo sieci dzięki modelowi podwójnego zabezpieczenia.
Innowacyjny standard formatu danych: Chainbase wprowadził nowy standard formatu danych zwany „rękopisami”, aby zoptymalizować sposób strukturyzowania i wykorzystania danych w branży kryptograficznej.
Model Cryptoworld: Wykorzystując swoje ogromne zasoby danych blockchain, Chainbase łączy technologię modeli AI, aby tworzyć modele AI, które mogą skutecznie rozumieć, przewidywać i wchodzić w interakcję z transakcjami blockchain. Podstawowy model Theia jest już dostępny do użytku publicznego.
Te cechy sprawiają, że Chainbase wyróżnia się na tle protokołów indeksowania blockchain, ze szczególnym naciskiem na dostępność danych w czasie rzeczywistym, innowacyjne formaty danych i tworzenie inteligentniejszych modeli zapewniających lepszy wgląd poprzez połączenie danych w łańcuchu i poza łańcuchem.
Model sztucznej inteligencji Chainbase Theia to kluczowa cecha odróżniająca go od innych protokołów usług danych. Theia opiera się na modelu DORA opracowanym przez firmę NVIDIA, łączy dane w łańcuchu i poza łańcuchem oraz działania czasoprzestrzenne, uczy się i analizuje wzorce szyfrowania oraz reaguje poprzez rozumowanie przyczynowe, w ten sposób dogłębnie badając potencjalną wartość i wzorce połączeń w łańcuchu danych i zapewnianie użytkownikom bardziej inteligentnych usług w zakresie danych.
Usługi danych oparte na sztucznej inteligencji sprawiają, że Chainbase nie jest już tylko platformą usług danych typu blockchain, ale bardziej konkurencyjnym inteligentnym dostawcą usług danych. Dzięki potężnym zasobom danych i proaktywnej analizie sztucznej inteligencji Chainbase jest w stanie zapewnić szerszy wgląd w dane i zoptymalizować procesy przetwarzania danych użytkowników.
3.3 Przestrzeń i czas
Celem Space and Time (SxT) jest stworzenie weryfikowalnej warstwy obliczeniowej, która rozszerza dowody wiedzy zerowej na zdecentralizowane hurtownie danych, aby zapewnić niezawodne przetwarzanie danych na potrzeby inteligentnych kontraktów, dużych modeli językowych i przedsiębiorstw. Space and Time zebrało 20 milionów dolarów w ostatniej rundzie finansowania serii A, prowadzonej przez Framework Ventures, Lightspeed Faction, Arrington Capital i Hivemind Capital.
W obszarze indeksowania i walidacji danych Space and Time wprowadza nową ścieżkę techniczną – Proof of SQL. To innowacyjna technologia zerowej wiedzy (ZKP) opracowana przez Space and Time, która gwarantuje, że zapytania SQL wykonywane w zdecentralizowanej hurtowni danych są odporne na manipulacje i weryfikowalne. Po uruchomieniu zapytania funkcja Proof of SQL generuje dowód kryptograficzny, który weryfikuje integralność i dokładność wyników zapytania. Dowód ten jest dołączany do wyniku zapytania, umożliwiając dowolnemu weryfikatorowi (np. inteligentnej umowie itp.) niezależne potwierdzenie, że dane nie zostały naruszone podczas przetwarzania. Tradycyjne sieci blockchain zwykle opierają się na mechanizmach konsensusu w celu weryfikacji autentyczności danych, podczas gdy Space and Time's Proof of SQL implementuje bardziej wydajną metodę weryfikacji danych. W szczególności w systemie Przestrzeni i Czasu jeden węzeł odpowiada za pozyskiwanie danych, natomiast pozostałe węzły weryfikują autentyczność danych za pomocą technologii zk. Ta metoda zmienia zużycie zasobów wielu węzłów wielokrotnie indeksujących te same dane w ramach mechanizmu konsensusu, aż do ostatecznego osiągnięcia konsensusu w celu uzyskania danych, a także poprawia ogólną wydajność systemu. W miarę dojrzewania tej technologii stanowi ona odskocznię dla szeregu tradycyjnych branż, które koncentrują się na niezawodności danych, w celu korzystania z produktów o strukturze danych w łańcuchu bloków.
Jednocześnie SxT ściśle współpracuje z Microsoft AI Joint Innovation Lab, aby przyspieszyć rozwój generatywnych narzędzi AI, aby ułatwić użytkownikom przetwarzanie danych blockchain za pomocą języka naturalnego. Obecnie w Space and Time Studio użytkownicy mogą wprowadzać zapytania w języku naturalnym, a sztuczna inteligencja automatycznie konwertuje je na SQL i wykonuje zapytania w imieniu użytkownika, aby przedstawić ostateczne wyniki, których potrzebuje użytkownik.
3.4 Porównanie różnic
Wnioski i perspektywy
Podsumowując, technologia indeksowania danych typu blockchain przeszła proces stopniowego doskonalenia, począwszy od początkowego źródła danych węzła, poprzez rozwój analizowania i indeksowania danych, aż do pełnołańcuchowych usług danych opartych na sztucznej inteligencji. Ciągła ewolucja tych technologii nie tylko poprawia efektywność i dokładność dostępu do danych, ale także zapewnia użytkownikom niespotykane dotąd inteligentne doświadczenia.
Patrząc w przyszłość, wraz z ciągłym rozwojem nowych technologii, takich jak technologia sztucznej inteligencji i dowód wiedzy zerowej, usługi danych typu blockchain będą jeszcze bardziej inteligentne i bezpieczne. Mamy powody, aby sądzić, że usługi danych typu blockchain będą w przyszłości nadal odgrywać ważną rolę jako infrastruktura, zapewniając silne wsparcie dla postępu i innowacji w branży.
Czytanie, indeksowanie do analizy, krótkie wprowadzenie do ścieżki indeksowania danych Web3

Odkryj więcej od twórcy

Najnowsze wiadomości