1 引言
從 2017 年的第一波 dApp Etheroll、ETHLend 與 CryptoKitties 開始,到如今各式各樣基於不同區塊鏈的金融、遊戲與社交 dApp 百花齊放,當我們談論去中心化的鏈上應用時,是否曾思考過這些 dApp 在交互中所採納的各類數據的源頭?
2024 年,熱點聚焦於 AI 與 Web3,在人工智能的世界裏,數據就像是其成長與進化的生命源泉。正如植物依賴陽光和水分才能茁壯成長,AI 系統同樣依賴海量的數據來不斷“學習”和“思考”。沒有數據,AI 的算法再精妙也不過是空中樓閣,無法發揮其應有的智能與效能。
本文從區塊鏈數據可訪問性(Data Accessibility)的角度,深入分析了行業發展過程中區塊鏈數據索引的演變,並對比了老牌數據索引協議 The Graph 與新興的區塊鏈數據服務協議 Chainbase 和 Space and Time,特別探討了這兩個結合 AI 技術的新晉協議在數據服務與產品架構特色的異同。
2 數據索引的繁與簡:從區塊鏈節點到全鏈數據庫
2.1 數據源頭:區塊鏈節點
從一開始瞭解“區塊鏈是什麼”時,我們就常看到這樣一句話:區塊鏈是去中心化的記賬本。區塊鏈節點是整個區塊鏈網絡的基礎,承擔着記錄、存儲和傳播鏈上所有交易數據的責任。每個節點都擁有一份完整的區塊鏈數據副本,確保網絡的去中心化特性得以維持。然而,對於普通用戶來說,自建和維護一個區塊鏈節點並非易事。這不僅需要專業的技術能力,還伴隨着高昂的硬件和帶寬成本。同時,普通的節點查詢能力也有限,無法以開發人員需要的格式查詢數據。因此,儘管理論上每個人都可以運行自己的節點,但實際操作中,用戶通常更傾向於依賴第三方服務。
爲了解決這一問題,RPC(遠程過程調用)節點提供商應運而生。這些提供商負責節點的成本和管理,並通過 RPC 端點提供數據。使得用戶可以無需自建節點,便可輕鬆訪問區塊鏈數據。公共 RPC 端點是免費的,但有速率限制,可能會對 dApp 的用戶體驗產生負面影響。私有 RPC 端點通過減少擁塞提供更好的性能,但即使是簡單的數據檢索也需要大量的來回通信。這使得它們請求繁重,對於複雜的數據查詢效率低下。此外,私有 RPC 端點通常難以擴展,並且缺乏跨不同網絡的兼容性。但節點提供商標準化的 API 接口給予了用戶訪問鏈上的數據更低的門檻,爲後續的數據解析和應用打下了基礎。
2.2 數據解析:從原型數據到可用數據
從區塊鏈節點獲取的數據往往是經過加密和編碼處理的原始數據。這些數據雖然保留了區塊鏈的完整性和安全性,但其複雜性也增加了數據解析的難度。對於普通用戶或者開發者來說,直接處理這些原型數據需要大量的技術知識和計算資源。
數據解析的過程在這一背景下顯得尤爲重要。通過將複雜的原型數據進行解析,轉換爲更易理解和操作的格式,用戶可以更直觀地理解和利用這些數據。數據解析的成功與否直接決定了區塊鏈數據應用的效率和效果,是整個數據索引流程中的關鍵一步。
2.3 數據索引器的演進
隨着區塊鏈數據量的增加,數據索引器的需求也日益增加。索引器在組織鏈上數據並將其發送到數據庫以便於查詢方面起着至關重要的作用。索引器的工作原理是索引區塊鏈數據並通過類似於 SQL 的查詢語言(GraphQL 等 API)使其隨時可用。通過提供查詢數據的統一界面,索引器允許開發人員使用標準化查詢語言快速準確地檢索所需的信息,從而大大簡化了流程。
不同類型的索引器通過各種方式優化數據檢索:
完整節點索引器:這些索引器運行完整的區塊鏈節點並直接從中提取數據,確保數據完整準確,但需要大量的存儲和處理能力。
輕量級索引器:這些索引器依靠完整節點根據需要獲取特定數據,從而減少存儲要求但可能會增加查詢時間。
專用索引器:這些索引器專門針對某些類型的數據或特定的區塊鏈,可優化特定用例的檢索,例如 NFT 數據或 DeFi 交易。
聚合索引器:這些索引器從多個區塊鏈和來源提取數據,包括鏈下信息,提供統一的查詢界面,這對於多鏈 dApp 特別有用。
目前,以太坊檔案節點(Archive Node)在 Geth 客戶端中的存檔模式佔用了約 13.5 TB 的存儲空間,而在 Erigon 客戶端下,存檔需求約爲 3 TB。隨着區塊鏈的不斷增長,檔案節點的數據存儲量也會隨之增加。面對如此龐大的數據量,主流索引器協議不僅支持多鏈索引,還針對不同應用的數據需求,定製了數據解析框架。例如,The Graph 的“子圖”(Subgraph)框架就是一個典型案例。
索引器的出現大大提升了數據的索引和查詢效率。與傳統的 RPC 端點相比,索引器可以高效地索引大量數據,並支持高速查詢。這些索引器允許用戶執行復雜的查詢,輕鬆過濾數據,並在提取後進行分析。此外,一些索引器還支持聚合來自多個區塊鏈的數據源,避免在多鏈 dApp 中需要部署多個 API 的問題。通過在多個節點上分佈式運行,索引器不僅提供了更強的安全性和性能,也減少了集中式 RPC 提供商可能帶來的中斷和停機風險。
相比之下,索引器通過預先定義的查詢語言,使得用戶可以在無需處理底層複雜數據的情況下,直接獲取所需信息。這種機制顯著提高了數據檢索的效率和可靠性,是區塊鏈數據訪問的重要創新。
2.4 全鏈數據庫:向流優先對齊
使用索引節點查詢數據通常意味着 API 成爲消化鏈上數據唯一門戶。然而,當一個項目進入擴展階段時,往往需要更靈活的數據源, 而這是標準化的 API 無法提供的。隨着應用需求的複雜化,初級數據索引器與其標準化的索引格式逐漸難以滿足越來越多樣化的查詢需求,例如搜索、跨鏈訪問或鏈下數據映射。
在現代數據管道架構中,“流優先”方法已經成爲解決傳統批處理侷限性的一種方案,能夠實現實時的數據攝取、處理和分析。這種範式的轉變使得組織能夠對傳入數據立即作出響應,從而幾乎即時地得出洞察並做出決策。類似地,區塊鏈數據服務提供商的發展也正朝着構建區塊鏈數據流的方向前進,傳統索引器服務商均陸續推出了以數據流方式獲取實時區塊鏈數據的產品,例如 The Graph 的 Substreams,Goldsky 的 Mirror,也有如 Chainbase 和 SubSquid 這樣根據區塊鏈生成數據流的實時數據湖。
這些服務旨在解決對區塊鏈交易進行實時解析和提供更全面查詢能力的需求。正如“流優先”架構通過降低延遲和增強響應能力,革新了傳統數據管道中的數據處理和消費方式一樣,這些區塊鏈數據流服務商也希望通過更先進且成熟的數據源,支持更多應用程序的發展並輔助鏈上數據分析。
通過現代數據管道的視角重新定義鏈上數據的挑戰,我們得以從全新的角度看待鏈上數據的管理、存儲和提供的全部潛力。當我們開始將子圖和以太坊 ETL 等索引器視爲數據管道中的數據流而非最終輸出時,便可以設想一個能夠爲任何業務用例量身定製高性能數據集的可能世界。
3 AI + Database? 深入對比 The Graph, Chainbase, Space and Time
3.1 The Graph
The Graph 網絡通過一個去中心化的節點網絡來實現多鏈數據索引和查詢服務,促進開發者便捷地索引區塊鏈數據並構建去中心化應用。其主要的產品模式爲數據查詢執行市場和數據索引緩存的市場,這兩個市場本質都是服務於用戶的產品查詢需求,其中數據查詢執行市場具體指消費者爲所需的數據選擇合適的提供數據的索引節點付費,數據索引緩存的市場則是索引節點依據子圖的歷史索引熱度、收取的查詢費、鏈上策展人對子圖輸出的需求調動資源分配的市場。
子圖(Subgraphs)是 The Graph 網絡中的基礎數據結構。它們定義瞭如何從區塊鏈中提取並轉換數據爲可查詢的格式(例如 GraphQL 模式)。任何人都可以創建子圖,且多個應用可以重複使用這些子圖,這提升了數據可複用性和使用效率。
The Graph 產品結構 (Source: The Graph Whitepaper)
The Graph 網絡由四個關鍵角色構成:索引器、策展人、委託人和開發者,他們共同爲 web3 應用提供數據支持。以下是他們各自的職責:
索引器(Indexer):索引器是 The Graph 網絡中的節點運營商,索引節通過質押 GRT(The Graph 的原生代幣)參與網絡,提供索引和查詢處理服務。
委託者(Delegator):委託者是那些將 GRT 代幣質押給索引節點以支持其運營的用戶。委託者通過他們所委託的索引節點賺取部分獎勵。
策展人(Curator):策展人負責信號哪些子圖應該被網絡索引。策展人幫助確保有價值的子圖被優先處理。
開發者(Developer):與前三者作爲供應方不同,開發者是需求方,是 The Graph 的主要用戶。他們創建並提交子圖至 The Graph 網絡,等待網絡滿足需求數據。
目前 The Graph 已經轉向全面的去中心化子圖託管服務,不同的參與方之間有流通的經濟激勵確保系統運轉:
索引節點獎勵:索引節點通過消費者的查詢費用和部分 GRT 代幣區塊獎勵來賺取收益。
委託者獎勵:委託者通過他們所支持的索引節點獲得部分獎勵。
策展人獎勵:如果策展人信號了有價值的子圖,他們可以從查詢費用中獲得部分獎勵。
事實上,The Graph 的產品也在 AI 浪潮中迅速發展。作爲 The Graph 生態系統的核心開發團隊之一,Semiotic Labs 一直致力於利用 AI 技術優化索引定價和用戶查詢體驗。當前,Semiotic Labs 開發的 AutoAgora、Allocation Optimizer 和 AgentC 工具分別在多個方面提升了生態系統的性能。
AutoAgora 引入動態定價機制,基於查詢量和資源使用情況實時調整價格,優化定價策略,確保索引器的競爭力和收入最大化。
Allocation Optimizer 解決了子圖資源分配的複雜問題,幫助索引器實現資源的最佳配置,以提升收入和性能。
AgentC 是一個實驗性工具,允許用戶通過自然語言訪問 The Graph 的區塊鏈數據,從而提升用戶體驗。
這些工具的應用使得 The Graph 結合 AI 輔助進一步提升了系統的智能化和用戶友好度。
3.2 Chainbase
Chainbase 是一個全鏈數據網絡,將所有區塊鏈數據整合到一個平臺,方便開發者更輕鬆地構建和維護應用程序。它的獨特功能包括:
實時數據湖:Chainbase 提供了一個專門用於區塊鏈數據流的實時數據湖,使得數據在生成時即可被即時訪問。
雙鏈架構:Chainbase 基於 Eigenlayer AVS 構建了一個執行層,與 CometBFT 的共識算法形成並行的雙鏈架構。這種設計增強了跨鏈數據的可編程性和可組合性,支持高吞吐量、低延遲和最終性,並通過雙重質押模型提升了網絡安全性。
創新數據格式標準:Chainbase 引入了一種名爲“manuscripts”的全新數據格式標準,優化了加密行業中數據的結構化和利用方式。
加密世界模型:憑藉其龐大的區塊鏈數據資源,Chainbase 結合 AI 模型技術,打造了能夠有效理解、預測區塊鏈交易並與之交互的 AI 模型。目前已推出基礎版模型 Theia,供公衆使用。
這些功能使 Chainbase 在區塊鏈索引協議中脫穎而出,尤其注重實時數據的可訪問性、創新的數據格式,以及通過鏈上和鏈下數據的結合,創建更智能的模型以提升洞察力。
Chainbase 的 AI 模型 Theia 是其區別於其他數據服務協議的關鍵亮點。Theia 基於 NVIDIA 開發的 DORA 模型,結合鏈上和鏈下數據以及時空活動,學習並分析加密模式,並通過因果推理做出響應,從而深入挖掘鏈上數據的潛在價值和規律,爲用戶提供更加智能化的數據服務。
AI 賦能的數據服務使 Chainbase 不再僅僅是一個區塊鏈數據服務平臺,而成爲一個更具競爭力的智能化數據服務商。通過強大的數據資源和 AI 的主動分析,Chainbase 能夠提供更廣泛的數據洞察,並優化用戶的數據處理過程。
3.3 Space and Time
Space and Time (SxT) 意在打造可驗證的計算層,在去中心化數據倉庫上擴展零知識證明,從而爲智能合約、大語言模型和企業提供可信的數據處理。目前 Space and Time 已獲得 2000 萬美元最新一輪的 A 輪融資,由 Framework Ventures、Lightspeed Faction、Arrington Capital 和 Hivemind Capital 領投。
在數據索引和驗證領域,Space and Time 引入了一種全新的技術路徑——Proof of SQL。這是 Space and Time 開發的一種創新零知識證明(ZKP)技術,確保在去中心化數據倉庫上執行的 SQL 查詢是防篡改的和可驗證的。當運行查詢時,Proof of SQL 會生成一個加密證明,驗證查詢結果的完整性和準確性。這個證明附加在查詢結果上,使任何驗證者(如智能合約等)都可以獨立確認數據在處理過程中未被篡改。傳統的區塊鏈網絡通常依賴共識機制來驗證數據的真實性,而 Space and Time 的 Proof of SQL 實現了一種更爲高效的數據驗證方式。具體來說,在 Space and Time 的系統中,一個節點負責數據的獲取,而其他節點則通過 zk 技術驗證該數據的真實性。這種方式改變了共識機制下多個節點重複索引相同數據的到最終達成共識獲取數據的資源損耗,提升了系統的整體性能。隨着這項技術的成熟,它爲着重數據可靠性的一系列傳統行業使用區塊鏈上數據構造產品打造了落腳石。
同時,SxT 一直與微軟 AI 聯合創新實驗室密切合作,加速研發生成式 AI 工具,方便用戶更輕鬆地通過自然語言處理區塊鏈數據。目前在 Space and Time Studio 中,用戶可以體驗輸入自然語言查詢,而 AI 會自動將其轉換爲 SQL 並代表用戶執行查詢語句呈現用戶需要的最終結果。
3.4 差異對比
結論與展望
綜上所述,區塊鏈數據索引技術從最初的節點數據源頭,經過數據解析和索引器的發展,最終演進到 AI 賦能的全鏈數據服務,經歷了一個逐步完善的過程。這些技術的不斷演進,不僅提高了數據訪問的效率和準確性,還爲用戶帶來了前所未有的智能化體驗。
展望未來,隨着 AI 技術和零知識證明等新技術的不斷髮展,區塊鏈數據服務將進一步智能化和安全化。我們有理由相信,區塊鏈數據服務將在未來作爲基礎設施繼續發揮重要作用,爲行業的進步和創新提供有力支持。