作者:Teng Yan,Chain of Thought;翻譯:金色財經xiaozou
我有一大遺憾至今還在困擾着我,對任何關注它的人來說,它無疑是最明顯的投資機會,但我沒有投入一分錢。不,我說的不是下一個Solana killer,也不是帶着滑稽帽子的狗狗meme幣。
而是……NVIDIA。
在短短一年的時間裏,NVDA的市值從1萬億美元飆升至3萬億美元,增長了3倍,甚至超過了同期的比特幣。
這當中當然少不了人工智能炒作,但有很大一部分是有現實基礎的。NVIDIA公佈其2024財年的收入爲600億美元,比2023財年增長了126%,表現驚人。
那我爲什麼錯過了呢?
兩年來,我一直專注於加密領域,並沒有放眼看外面的世界,沒有關注到人工智能領域。我真是犯了個大錯,至今仍令我耿耿於懷。
但我不會再犯同樣的錯誤。
今天,Crypto AI給人的感覺非常相似。我們正處在創新大爆發的邊緣。這與19世紀中期加州淘金熱太像了,讓人難以忽視——工業和城市一夜之間興起,基礎設施以極快的速度發展,財富是由敢想敢幹的人創造的。
就像早期的NVIDIA一樣,事後看來,Crypto AI也將是顯而易見的機會。
本文第一部分,我將闡述爲什麼Crypto AI對投資者和建設者來說是當今最令人興奮的弱者機會。
簡單概述如下:
許多人仍然認爲它是幻想。
Crypto AI還處於早期階段,距離炒作頂峯可能還有1-2年的時間。
這個領域至少有2300億美元以上的增長機會。
從本質上講,Crypto AI是一種基於加密基礎設施的AI。這意味着它更有可能跟隨人工智能的指數增長軌跡,而不是更廣泛的加密市場。因此,爲了不掉隊,必須要關注Arxiv上最新的人工智能研究,並與那些相信自己正在創建下一個了不起的產品和服務的創始人交談。
本文第二部分,我將深入研究Crypto AI中最有前途的四個子領域:
去中心化計算:訓練、推理和GPU市場
數據網絡
可驗證AI
鏈上運行的AI代理
爲撰寫本文,我花了好幾周的時間進行深入研究,與Crypto AI領域的創始人和團隊交談,而本文則是這些努力的結晶。本文並不會詳盡地深入到每一個領域,相反,你可以把它看作是一個高層路線圖,旨在激發你的好奇心,提高你的研究水平,指導你的投資思維。
1、Crypto AI格局
我把去中心化的人工智能堆棧描繪成一個若干層生態系統:它的一端始於去中心化計算和開放數據網絡,爲去中心化人工智能模型訓練提供支持。
然後,結合使用密碼學、加密經濟激勵機制和評估網絡來驗證每條推斷——輸入和輸出均如此。這些經驗證的輸出流向可在鏈上自主運行的人工智能代理,以及用戶可以真正信任的消費者和企業AI應用程序。
協調網絡將一切聯繫在一起,實現整個生態系統的無縫通信和協作。
在這個願景中,任何構建人工智能的人都可以根據自己的具體需求,利用這個堆棧的一層或多個層。無論是利用去中心化計算進行模型訓練,還是使用評估網絡來確保高質量的輸出,該堆棧都提供了一系列選擇。
由於區塊鏈固有的可組合性,我相信我們將自然而然地走向模塊化未來。每一層都正變得高度專業化,協議針對不同的功能進行優化,而不是採用一體化集成方法。
在去中心化人工智能堆棧的每一層都聚集了大量初創公司,其中大多數是在過去的1-3年裏成立的。很明顯,該領域還處於早期階段。
我所見過的最全面最新的Crypto AI創業地圖是由Casey和她的團隊在topology.vc上維護的。這對任何追蹤該領域的人來說都是無價的資源。
當我深入研究Crypto AI子領域時,我不斷問自己:其中的機會有多大?我對小打小鬧不感興趣——我尋找的是能達到數千億美元規模的市場。
(1)市場規模
讓我們先來看市場規模。當評估一個細分領域時,我會問自己:它是在創造一個全新市場還是在破壞一個現有市場?
以去中心化計算爲例。這是一個顛覆性的類別,其潛力可以通過觀察現有的雲計算市場來評估,目前市值約爲6800億美元,預計到2032年將達到2.5萬億美元。
史無前例的新市場,比如人工智能代理,則更難量化。在沒有歷史數據的情況下,對它們的評估需要根據的猜測以及評估他們正在解決的問題。需要注意的是,有時候,看起來像一個新市場的東西,實際上只是一個努力尋找問題的解決方案。
(2)時機
時機就是一切。隨着時間的推移,技術往往會改進並變得成本更低,但發展速度各不相同。
某一特定細分領域的技術成熟程度如何?它是否已經準備好實現規模化採用,還是仍處於研究階段,實際應用還需要幾年時間?時機決定了一個行業是值得人們立即關注還是“觀望”。
以全同態加密(FHE)爲例:其潛力是不可否認的,但目前它的發展速度仍然太慢,無法被廣泛使用。我們可能還需要幾年時間才能看到它受到主流採用。通過首先關注更接近規模化的領域,我可以把時間和精力花在正在積聚勢頭和機會的領域。
如果我要把這些類別映射到一個規模與時間圖表上,它看起來就像這樣。請記住,這還是一個概念圖,而不是一個硬性指南。有很多細微差別——例如,在可驗證推理中,不同的方法(如zkML和opML)具有不同的使用就緒級別。
也就是說,我相信人工智能的規模將如此之大,即使是今天看起來“小衆”的領域也可能演變成一個重要的市場。
同樣值得注意的是,技術進步並不總是沿着一條直線前進——它經常是突飛猛進的。當突然爆發時,我對時機和市場規模的看法將發生變化。
有了這個框架,讓我們來具體來看各個子領域。
2、領域一:去中心化計算
去中心化計算是去中心化人工智能的支柱。
GPU市場、去中心化訓練和去中心化推理是緊密聯繫在一起的。
供應端通常來自中小型數據中心和消費者GPU。
需求面雖小,但仍在增長。如今,它來自對價格敏感、對延遲不敏感的用戶和規模較小的人工智能初創公司。
目前Web3 GPU市場面臨的最大挑戰是如何讓它們正常運行。
在去中心化網絡上協調GPU需要先進的工程技術和設計良好、可靠的網絡架構。
2.1 GPU市場/計算網絡
有幾個Crypto AI團隊正在針對無法滿足需求的GPU短缺,建立去中心化網絡,利用全球的潛在算力。
GPU市場的核心價值主張有3方面:
你可以以比AWS“低90%”的價格訪問計算,這是因爲沒有中間商並開放了供應端。從本質上講,這些市場允許你利用全球最低的邊際計算成本。
更大的靈活性:沒有鎖定合同,沒有KYC流程,沒有等待時間。
抗審查性
爲了解決市場供應端問題,這些市場的算力來源於:
難尋需求的中小型數據中心的企業級GPU(例如A100、H100),或者是尋求多樣化的比特幣礦工。我還知道一些團隊致力於政府資助的大型基礎設施項目,在這些項目中,作爲技術增長計劃一部分的數據中心已經建成。這些GPU提供商通常被激勵將他們的GPUT保留在網絡上,這有助於他們抵消GPU的攤銷成本。
數百萬玩家和家庭用戶的消費級GPU,他們將電腦連接到網絡換取代幣獎勵。
另一方面,今天對去中心化計算的需求來自:
價格敏感、延遲不敏感的用戶。這個細分市場優先考慮價格而不是速度。想想探索新領域的研究人員、獨立AI開發者和其他不需要實時處理的成本意識較強的用戶。由於受預算限制,他們中的許多人可能不滿於傳統的超大規模服務器(如AWS或Azure)。因爲他們在人羣中分佈很廣,所以有針對性的營銷對於吸引這一羣體至關重要。
小型人工智能初創公司,他們面臨着在不與主要雲提供商簽訂長期合同的情況下獲得靈活、可擴展的計算資源的挑戰。業務發展對於吸引這一細分市場至關重要,因爲他們正在積極尋求超大規模鎖定的替代方案。
Crypto AI初創公司,他們構建去中心化人工智能產品,但沒有自己的算力供應,將需要利用其中一個網絡的資源。
雲遊戲:雖然不是直接由AI驅動的,但云遊戲對GPU資源的需求正越來越大。
要記住的關鍵一點是:開發人員總是優先考慮成本和可靠性。
真正的挑戰在於需求,而非供給。
這一領域的初創公司經常將其GPU供應網絡的規模作爲成功的標誌。但這是一種誤導——它充其量不過是一種虛榮的衡量標準。
真正的制約因素不是供給,而是需求。跟蹤的關鍵指標不是可用的GPU數量,而是利用率和實際出租的GPU數量。
代幣在引導供應方面表現出色,創造了迅速擴大規模所需的激勵。然而,它們並不能從本質上解決需求問題。真正的考驗是讓產品達到一個足夠好的狀態,從而實現潛在需求。
關於這一點,Haseeb Qureshi(Dragonfly)說得好:
使計算網絡真正可以工作
與普遍的看法相反,web3分佈式GPU市場目前面臨的最大障礙就是讓它們正常工作。
這並不是一個微不足道的問題。
在分佈式網絡中協調GPU是非常複雜的,有很多挑戰——資源分配、動態工作負載擴展、節點和GPU間的負載平衡、延遲管理、數據傳輸、容錯以及處理分散在不同地理位置的各種硬件。我還可以繼續說下去。
實現這一點需要深思熟慮的工程設計和可靠的、設計合理的網絡架構。
爲了更好地理解,想想谷歌的Kubernetes。它被普遍認爲是容器編排的黃金標準,在分佈式環境中自動化負載平衡和擴展等過程,這與分佈式GPU網絡面臨的挑戰非常相似。Kubernetes本身是建立在谷歌十多年的經驗基礎上的,即使在那時,它也需要數年的不懈迭代才能表現良好。
目前已經上線的一些GPU計算市場可以處理小規模的工作負載,但一旦它們嘗試擴展,就會出現問題。我懷疑這是因爲它們的架構基礎設計很糟糕。
去中心化計算網絡的另一個挑戰/機遇是確保可信度:驗證每個節點實際上提供了所聲稱的計算能力。目前,這依賴於網絡聲譽,在某些情況下,算力提供商根據聲譽評分進行排名。區塊鏈似乎很適合於無需信任的驗證系統。像Gensyn和Spheron這樣的初創公司正在力求使用一種無需信任的方法來解決這個問題。
今天,許多web3團隊仍在應對這些挑戰,這也意味着機會之門是敞開的。
去中心化計算市場規模
去中心化計算網絡市場有多大?
如今,它可能只是價值6800億至2.5萬億美元的雲計算行業的一小部分。然而,儘管增加了用戶的摩擦,但只要成本低於傳統供應商,總是會有需求的。
我相信,由於代幣補貼和對價格不敏感的用戶的供應解鎖,成本將在中短期內保持較低水平(例如,如果我能出租我的遊戲筆記本電腦賺取額外現金,無論是每月20美元還是50美元,我都會很高興的)。
但是去中心化計算網絡的真正增長潛力——以及它們的TAM的真正擴展——將出現於下列情況之中:
人工智能模型去中心化訓練變得實用。
對推理的需求激增,現有數據中心無法滿足需求。這種情況已經開始顯現。Jensen Huang表示,推理需求將增長“十億倍”。
適當的服務水平協議(SLA)變得可用,解決企業採用的一大關鍵障礙。目前,去中心化計算的運行情況讓用戶感受到不同水平的服務質量(例如正常運行時間佔比)。有了SLA,這些網絡可以提供標準化的可靠性和性能指標,使去中心化計算成爲傳統雲計算提供商的可行替代方案。
去中心化無需許可計算是去中心化人工智能生態系統的基礎層——基礎設施。
儘管GPU的供應鏈正在不斷擴大,但我相信我們尚處於人類智能時代的黎明。對計算的需求將是無法滿足的。
需要注意可能引發所有運行GPU市場重新評級的拐點,可能很快就會到來。
其他注意事項:
純粹的GPU市場是擁擠的,去中心化平臺之間競爭激烈,以及web2 AI新興雲服務(如Vast.ai和Lambda的崛起。
小節點(如4 x H100)的需求並不大,因爲它們的使用有限,但是祝你好運能夠找到銷售大型集羣的人——它們仍然有一定的需求。
一個占主導地位的玩家會爲去中心化協議聚合所有算力供應,還是會在多個市場中保持算力分散?我傾向於前者,因爲整合通常會提高基礎設施效率。但這需要時間,與此同時,分裂和混亂仍在繼續。
開發人員希望專注於應用程序開發,而不是應對部署和配置。市場必須抽象出這些複雜性,使計算訪問儘可能無摩擦。
2.2 去中心化訓練
如果擴展定律成立,那麼在單個數據中心訓練下一代前沿人工智能模型將在某一天變得不可能。
訓練AI模型需要在GPU之間傳輸大量數據。分佈式GPU之間較低的數據傳輸(互連)速度通常是最大的障礙。
研究人員正在同步探索多種方法,並且正在取得突破(例如Open DiLoCo、DisTrO)。這些進步將疊加聚集,加速該領域的進步。
去中心化訓練的未來可能繫於爲小衆應用設計小型專用模型,而不是前沿的、以AGI爲中心的模型。
隨着向OpenAI o1等模型的轉變,推理需求將會飆升,爲去中心化推理網絡創造機會。
想象一下:一個巨大的、改變世界的人工智能模型,不是在祕密的精英實驗室開發的,而是由數百萬普通人塑造的。玩家們的GPU通常會創造出(使命召喚)劇場般的爆炸場面,現在他們把自己的硬件借給了更宏大的東西——一個開源的、集體擁有的、沒有中央看門人的人工智能模型。
在這樣一個未來,基金會規模的模型不僅囿於頂級人工智能實驗室。
但讓我們把這一願景根植於當下的現實中來。目前,重量級人工智能訓練的大部頭仍然集中在中心化數據中心,這可能會成爲一段時間的常態。
像OpenAI這樣的公司正在擴大他們龐大的集羣。埃隆·馬斯克(Elon Musk)最近宣佈,xAI即將建成一個相當於20萬個H100 GPU的數據中心。
但這不僅僅關乎原始GPU計數。模型FLOPS利用率(MFU)是谷歌在2022年的PaLM研究文章中提出的一個指標,它跟蹤GPU最大容量的使用效率。令人驚訝的是,MFU通常徘徊在35-40%之間。
爲什麼這麼低?按照摩爾定律,GPU的性能在過去幾年裏突然飛昇,但網絡、內存和存儲的改進卻明顯落後,形成了瓶頸。因此,GPU經常處於限制狀態,等待數據。
今天的人工智能訓練仍然高度集中,因爲一個詞——效率。
訓練大型模型取決於以下技術:
數據並行:跨多個GPU拆分數據集並行執行操作,加速訓練過程。
模型並行:將模型的各部分分佈在多個GPU之間,繞過內存約束。
這些方法需要GPU不斷地交換數據,互連速度——數據在網絡中跨計算機傳輸的速率——就變得至關重要。
當前沿人工智能模型訓練的成本超過10億美元時,每一次效率提升都很重要。
通過高速互連,集中式數據中心能夠在GPU之間快速傳輸數據,並在訓練時間內節省大量成本,這是去中心化設置無法比擬的。
克服緩慢的互連速度
如果你與人工智能領域的工作人員交談,許多人都會告訴你,去中心化訓練根本行不通。
在去中心化設置下,GPU集羣不是物理上共存的,因此在它們之間傳輸數據要慢得多,成爲瓶頸。訓練需要GPU在每一步同步、交換數據。它們距離越遠,延遲越高。更高的延遲意味着更慢的訓練速度和更高的成本。
在集中式數據中心可能需要幾天的時間,在去中心化數據中心可能會延長到兩週,成本也更高。這根本不可行。
但這種情況即將改變。
好消息是,人們對分佈式訓練的研究興趣激增。研究人員正在同時探索多種方法,大量的研究和已發表論文證明了這一點。這些進步將疊加融合,加速該領域的進步。
這也關乎生產環境測試,看看我們能在多大程度上突破界限。
一些去中心化訓練技術已經可以在緩慢的互連環境中處理較小模型。現在,前沿研究正在推動這些方法在大模型中的應用。
例如,Prime Intellect的開源DiCoLo一文展示了一種實用方法,該方法涉及GPU“孤島”,在同步之前執行500個本地步驟,將帶寬需求削減了500倍。從一開始的谷歌DeepMind對小模型的研究已經在11月內擴展到訓練100億個參數的模型,並且如今完全開源。
Nous Research正在通過他們的DisTrO框架提高標準,該框架使用優化器在訓練1.2B參數模型的同時,將GPU間的通信要求降低了令10,000倍,令人瞠目結舌。
而且這種勢頭還在不斷增強。去年12月,Nous宣佈了一個15B參數模型的預訓練,該模型具有損失曲線(模型誤差如何隨時間減少)和收斂率(模型性能穩定的速度),這與集中式訓練的典型結果相匹配甚至更勝一籌。是的,比中心化要好。
SWARM Parallelism和DTFMHE是跨不同類型設備訓練大型AI模型的其他不同方法,即使這些設備具有不同的速度和連接水平。
管理各種各樣的GPU硬件是另一大挑戰,包括去中心化網絡中典型的內存受限的消費級GPU。像模型並行(跨設備劃分模型層)這樣的技術可以幫助實現這一點。
去中心化訓練的未來
目前去中心化訓練方法的模型規模仍然遠遠低於前沿模型(據報道,GPT-4的參數接近一萬億,比Prime Intellect的10B模型大100倍)。爲了實現真正的規模化,我們需要在模型架構、更好的網絡基礎設施和更智能的跨設備任務分配方面取得突破。
我們可以有遠大的夢想。想象一下這樣一個世界:去中心化訓練所聚集的GPU計算能力甚至比最大的集中式數據中心所能聚集的還要多。
Pluralis Research(一個專注於去中心化培訓的精銳團隊,值得密切關注)認爲這不僅是可能的,而且是不可避免的。集中式數據中心受到空間和電力可用性等物理條件限制,而去中心化網絡可以利用真正無限的全球資源池。
就連英偉達(NVIDIA)的Jensen Huang也承認,異步去中心化訓練可以釋放人工智能擴展的真正潛力。分佈式訓練網絡也更具有容錯性。
因此,在一個可能的未來世界,全球最強大的人工智能模型將以一種去中心化方式被訓練。
這是一個令人興奮的前景,但我目前還沒有完全相信。我們需要更有力的證據來證明,對最大的模型進行去中心化訓練在技術上和經濟上都是可行的。
我在這當中看到了巨大的希望:去中心化訓練最好的一點可能在於爲目標用例設計的小型專用開源模型,而不是與超大的AGI驅動的前沿模型競爭。某些架構,尤其是非transformer模型,已經被證明非常適合去中心化設置。
這個謎題還有另一部分:代幣。一旦去中心化訓練在規模上變得可行,代幣就可以在激勵和獎勵貢獻者方面發揮關鍵作用,有效地引導這些網絡。
實現這一願景的道路還很漫長,但進展令人鼓舞。由於未來模型的規模將超過單個數據中心的容量,去中心化訓練的進步將使所有人受益,甚至包括大型科技公司和頂級人工智能研究實驗室。
未來是分佈式的。當一項技術擁有如此廣泛的潛力時,歷史表明它總是比所有人預期的都要更好、更快。
2.3. 去中心化推理
目前,人工智能的大部分計算能力都集中在訓練大規模模型上。頂尖的人工智能實驗室正在進行一場競賽,看誰能開發出最好的基礎模型,並最終實現AGI。
但我的看法是:在未來幾年,這種專注於訓練的計算將轉向推理。隨着人工智能越來越多地融入到我們日常使用的應用程序中——從醫療保健到娛樂——支持推理所需的計算資源量將非常驚人。
這不僅僅是猜測。推理時間計算擴展(inference-time compute scaling)是人工智能領域的最新流行語。OpenAI最近發佈了其最新模型01(代號:Strawberry)的預覽/迷你版,這是一個重大轉變嗎?需要花時間思考,首先問自己應該採取哪些步驟來回答這個問題,然後逐步進行。
這個模型是爲更復雜的、需要大量計劃的任務而設計的,比如填字遊戲,以及需要更深層推理的問題。你會注意到它變慢了,需要更多的時間來生成響應,但結果卻更加深思熟慮和細緻入微。它的運行成本也高得多(是GPT-4的25倍)。
重心的轉變很明顯:人工智能性能的下一個飛躍將不僅僅來自訓練更大的模型,還來自在推理過程中擴展計算應用。
如果你想了解更多,一些研究文章表明:
通過重複採樣來擴展推理計算,可以在各種任務之間獲得很大的改進。
也有一個用於推理的擴展指數定律。
一旦強大的模型被訓練出來,它們的推理任務——模型所做的事情——就可以被轉移到去中心化計算網絡上。這不無道理,因爲:
與訓練相比,推理所需的資源要少得多。經過訓練後,可以使用量化(quantization)、剪枝(pruning)或蒸餾(distillation)等技術對模型進行壓縮和優化。它們甚至可以分解在日常消費設備上運行。你不需要高端GPU來支持推理。
這已經發生了。Exo Labs已經找到了如何在MacBook和Mac Mini等消費級硬件上運行450B參數Llama3模型的方法。跨多設備分佈推理可以高效且經濟地處理大規模工作負載。
更好的用戶體驗。在離用戶更近的地方運行計算可以減少延遲,這對於遊戲、AR或自動駕駛汽車等實時應用至關重要。每一毫秒都很重要。
把去中心化推理想象成人工智能的CDN(內容分發網絡):去中心化推理利用本地計算能力,在創紀錄的時間內提供人工智能響應,而不是通過連接到附近的服務器來快速提供網站。通過採用去中心化推理,人工智能應用程序變得更高效、響應更快、更可靠。
趨勢很明顯。蘋果新推出的M4 Pro芯片與英偉達的RTX 3070 Ti競爭,直到最近,RTX 3070 Ti還是硬核遊戲玩家的領地。我們的硬件越來越有能力處理高級人工智能工作負載。
Crypto的增值
去中心化推理網絡要想取得成功,就必須有令人信服的經濟激勵。網絡中的節點需要因其算力貢獻獲得補償。該制度必須確保公平有效地分配獎勵。地理多樣性是必要的,可以減少推理任務的延遲,並提高容錯性。
建立去中心化網絡的最佳方式是什麼?Crypto。
代幣提供了一種強大的機制來協調參與者的利益,確保每個人都朝着同一個目標努力:擴展網絡並提高代幣價值。
代幣也加速了網絡的增長。它們通過獎勵早期採用者以及從第一天起推動參與度,幫助解決了經典的雞生蛋還是蛋生雞的問題,這個問題阻礙了大多數網絡的發展。
比特幣和以太坊的成功證明了這一點——它們已經聚集了地球上最大的算力池。
去中心化推理網絡將是下一個。由於地域的多樣性,它們減少了延遲,提高了容錯性,使人工智能更接近用戶。在加密激勵下,它們將比傳統網絡更快、更好地擴展。
(未完待續,敬請關注)