作者: YBB Capital Researcher Zeke
一、始於注意力的喜新厭舊
在過去的一年裏,由於應用層敘事斷檔,無法匹配基礎設施爆發的速度,加密領域逐漸變成了一場爭奪注意力資源的遊戲。從Silly Dragon到Goat,從Pump.fun到Clanker,注意力的喜新厭舊讓這場爭奪戰一路內卷。以最俗套的吸引眼球變現爲開端,迅速換代至注意力需求者和供給者統一的平臺模式,再到硅基生物成爲新的內容供給者。Meme Coin千奇百怪的載體裏終於出現了一種能讓散戶與VC達成共識的存在:AI Agent。
注意力最終是一種零和博弈,不過投機確實也可以促使事物野蠻生長。我們在關於UNI的文章中曾回顧過區塊鏈上個黃金時代的開端,DeFi極速增長的起因源自Compound Finance開啓的LP挖礦時代,在Apy上千甚至上萬的各種礦池中進進出出是那個時期鏈上最原始的博弈方式,雖然最後的情況是各種礦池崩塌一地雞毛。但黃金礦工的瘋狂涌入確實給區塊鏈留下了前所未有的流動性,DeFi最終也跳脫出純粹的投機形成了一個成熟的賽道,在支付、交易、套利、質押等方方面面滿足着用戶的金融需求。而AI Agent在現階段也正經歷着這個野蠻階段,我們正在探尋的是Crypto可以如何更好的去融合AI,並最終促使應用層登上新的高地。
二、智能體如何自主
我們在前一篇文章中簡單介紹過關於AI Meme的起源:Truth Terminal,以及對AI Agent未來的展望,本文聚焦的首先是AI Agent本身。
我們首先從AI Agent的定義說起,Agent在AI領域中是一個較爲古老但定義不明確的詞彙,其主要強調的是Autonomous(自主性),即任何能夠通過感知環境並做出反射的AI都可稱爲Agent。在現今的定義中AI Agent更接近於智能體,即給大模型設定一套模仿人類決策的系統,在學術界這套系統被視爲是最有希望通往AGI(通用人工智能)的方式。
在早期的GPT版本中,我們明顯能感知到大模型很像人,但在回答很多複雜問題時大模型卻都只能給出一些似是而非的答案。本質原因是當時的大模型基於概率而非因果,其次它缺乏人類所具備的使用工具、記憶、規劃等能力,而AI Agent可以補齊這些缺陷。所以用一個公式來概括,AI Agent(智能體)=LLM(大模型)+ Planning(規劃)+Memory(記憶)+ Tools(工具)。
基於提示詞(Prompt)的大模型更像是一個靜態的人,我們輸入的時候,它纔有生命,智能體的目標則是一個更爲真實的人。現如今圈內的智能體主要是基於Meta開源的Llama 70b或405b版本(兩者參數不同)的微調模型,具備記憶及使用API接入工具的能力,在其他方面則可能需要人類的幫助或輸入(包括與其它智能體的交互協作),所以我們能看到如今圈內主要的智能體還是以KOL的形式存在於社交網絡上。要想使智能體更像人,需要接入規劃和行動能力,而規劃中的子項思維鏈尤爲關鍵。
三、思維鏈(Chain of Thought, CoT)
思維鏈(Chain of Thought, CoT)的概念最早出現於2022年Google發佈的論文(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)中,論文指出可以通過生成一系列中間推理步驟來增強模型的推理能力,幫助模型更好地理解和解決複雜問題。
一個典型的CoT Prompt包含三個部分:指令明確的任務描述邏輯依據支持任務解決的理論基礎或原理示例具體的解決方案展示這種結構化的方式有助於模型理解任務要求,通過邏輯推理逐步接近答案,從而提高了解決問題的效率和準確性。CoT特別適合需要深入分析和多步驟推理的任務,如數學問題求解、項目報告撰寫等簡單任務,CoT可能不會帶來明顯優勢,但對複雜任務,它能顯著提高模型的表現,通過分步解決策略減少錯誤率,提高任務完成的質量。
在構建AI Agent時,CoT起到了關鍵作用,AI Agent需要理解接收到的信息並據此做出合理決策,CoT通過提供有序的思考方式,幫助Agent有效處理和分析輸入信息,將解析結果轉化爲具體行動指南這種方法不僅增強了Agent決策的可靠性和效率,還提高了決策過程的透明度,使Agent的行爲更加可預測和可追蹤CoT通過將任務分解爲多個小步驟,有助於Agent細緻考慮每個決策點,減少因信息過載導致的錯誤決策,CoT使得Agent的決策過程更加透明,用戶更容易理解Agent的決策依據。在與環境互動中,CoT允許Agent不斷學習新信息,調整行爲策略。
CoT作爲一種有效的策略,不僅提升了大型語言模型的推理能力,還在構建更加智能、可靠的AI Agent方面發揮了重要作用。通過利用CoT,研究人員和開發者能夠創造出更加適應複雜環境、具備高度自主性的智能系統。CoT在實際應用中展示了其獨特的優勢,特別是在處理複雜任務時,通過將任務分解爲一系列小步驟,不僅提高了任務解決的準確性,還增強了模型的可解釋性和可控性。這種逐步解決問題的方法,可以大大降低在面對複雜任務時,因信息過多或過於複雜,而導致的錯誤決策。同時,這種方法也提高了整個解決方案的可追蹤性和可驗證性。
CoT的核心功能在於將計劃、行動與觀察相互結合,彌補推理與行動之間的差距。這種思考模式允許AI Agent在預測可能遇到的異常情況時制定有效的對策,以及在與外部環境交互的同時積累新信息、驗證預先設定的預測,提供新的推理依據。CoT就像是一個強大的精確度和穩定性引擎,幫助AI Agent在複雜環境中保持高效的工作效率。
四、正確的僞需求
Crypto究竟要與AI技術棧的那些方面進行結合?去年的文章中我認爲算力與數據的去中心化是幫助小企業和個人開發者節省成本的關鍵步驟,而在今年Coinbase所整理的Crypto x AI細分賽道中,我們看到了更詳細的劃分:
(1)計算層(指專注於爲 AI 開發者提供圖形處理單元(GPU)資源的網絡);
(2)數據層(指支持 AI 數據管道去中心化訪問、編排和驗證的網絡);
(3)中間件層(指支持 AI 模型或智能體的開發、部署和託管的平臺或網絡);
(4)應用層(指利用鏈上 AI 機制的面向用戶的產品,無論是 B2B 還是 B2C)。
在這四個劃分層中,每一層都有宏大的願景,其目標總結而言都是爲了對抗硅谷巨頭霸佔互聯網的下個時代。正如我在去年所說的我們真的要接受硅谷巨頭獨家控制算力、數據?在他們壟斷下的閉源大模型其內部又是一個黑盒,科學作爲當今人類最信仰的宗教,未來大模型所回答的每句話都會被很大一部分人視爲真理,但這個真理又該如何驗證?按照硅谷巨頭的設想,智能體最終所擁有的權限將超乎想象,比如擁有你錢包的支付權,使用終端的權利,如何保證人無惡念?
去中心化是唯一的答案,但有的時候我們是否需要合理的去綜合考慮,這些宏大願景的買單者有多少?在過往我們可以不考慮商業閉環的情況下,通過Token去彌補理想化帶來的誤差。而現如今的情勢則非常嚴峻,Crypto x AI更需結合現實情況再做設計,比如算力層在性能損失且不穩定的情況下供給兩端到底要怎麼平衡?以實現匹配中心化雲的競爭力。數據層的項目究竟會有多少真實用戶,如何檢驗所提供數據的真實有效性,又有什麼樣的客戶需要這些數據?其餘二層皆是同理,在這個時代我們不需要那麼多看似正確的僞需求。
五、Meme跑出了SocialFi
正如我在第一段所說的Meme已經用超極速的方式,走出了符合Web3的SocialFi形態。Friend.tech是打響本輪社交應用第一槍的Dapp,但無奈敗在急於求成的Token設計。Pump.fun則驗證了純平臺化的可行性,不做任何Token,不做任何規則。注意力的需求者和供給者統一,你可以在平臺上發梗圖、做直播、發幣、留言、交易,一切都是自由的,Pump.fun只收取服務費。這與如今YouTube,Ins等社交媒體的注意力經濟模式基本一致,只不過收費對像不同,玩法上Pupm.fun則更Web3。
Base的Clanker則是集大成者,得益於生態親自操刀的一體化生態,Base有自己的社交Dapp作爲輔助,形成完整的內部閉環。智能體Meme是Meme Coin的2.0形態,人總是圖新鮮,而Pump.fun如今恰好又處在風口浪尖處,從趨勢上來看硅基生物的胡思亂想取代碳基生物的低俗梗只是時間問題。
我已經第無數次提到了Base,只是每次提及的內容不同,從時間線上看Base從來都不是先發者,但卻總是贏家。
六、智能體還能是什麼?
從務實的角度講,智能體在未來很長一段時間內是不可能去中心化的,以傳統AI領域對智能體的搭建來看,它不是簡單的推理過程去中心化和開源就能解決的問題,它需要接入各種API去訪問Web2的內容,它的運行成本很昂貴,思維鏈的設計及多智能體的協作通常還是依賴於一個人類作爲媒介。我們會經歷很漫長的一個過渡期,直到出現一個合適的融合形態,或許就像UNI一樣。但同上一篇文章一樣我依然覺得智能體將對我們行業形成很大的衝擊,正如Cex在我們行業中的存在一樣,不正確但很重要。
斯坦福&微軟上月發出的(AI Agent綜述)一文,大量描述了智能體在醫療業、智能機器、虛擬世界的應用,而在這篇文章的附錄中已經有非常多GPT-4V作爲智能體參與進頂級3A遊戲開發中的試驗案例。
不必太強求它與去中心化結合的速度,我更希望智能體首先補齊的拼圖是自下而上的能力與速度,我們有那麼多的敘事廢墟以及空白的元宇宙需要它填滿,在合適的階段我們再考慮如何讓它成爲下一個UNI。
參考資料
大模型“涌現”的思維鏈,究竟是一種什麼能力? 作者:腦極體
一文讀懂Agent,大模型的下一站 作者:LinguaMind