作者: YBB Capital Researcher Zeke

一、始于注意力的喜新厌旧

在过去的一年里,由于应用层叙事断档,无法匹配基础设施爆发的速度,加密领域逐渐变成了一场争夺注意力资源的游戏。从Silly Dragon到Goat,从Pump.fun到Clanker,注意力的喜新厌旧让这场争夺战一路内卷。以最俗套的吸引眼球变现为开端,迅速换代至注意力需求者和供给者统一的平台模式,再到硅基生物成为新的内容供给者。Meme Coin千奇百怪的载体里终于出现了一种能让散户与VC达成共识的存在:AI Agent。

注意力最终是一种零和博弈,不过投机确实也可以促使事物野蛮生长。我们在关于UNI的文章中曾回顾过区块链上个黄金时代的开端,DeFi极速增长的起因源自Compound Finance开启的LP挖矿时代,在Apy上千甚至上万的各种矿池中进进出出是那个时期链上最原始的博弈方式,虽然最后的情况是各种矿池崩塌一地鸡毛。但黄金矿工的疯狂涌入确实给区块链留下了前所未有的流动性,DeFi最终也跳脱出纯粹的投机形成了一个成熟的赛道,在支付、交易、套利、质押等方方面面满足着用户的金融需求。而AI Agent在现阶段也正经历着这个野蛮阶段,我们正在探寻的是Crypto可以如何更好的去融合AI,并最终促使应用层登上新的高地。

二、智能体如何自主

我们在前一篇文章中简单介绍过关于AI Meme的起源:Truth Terminal,以及对AI Agent未来的展望,本文聚焦的首先是AI Agent本身。

我们首先从AI Agent的定义说起,Agent在AI领域中是一个较为古老但定义不明确的词汇,其主要强调的是Autonomous(自主性),即任何能够通过感知环境并做出反射的AI都可称为Agent。在现今的定义中AI Agent更接近于智能体,即给大模型设定一套模仿人类决策的系统,在学术界这套系统被视为是最有希望通往AGI(通用人工智能)的方式。

在早期的GPT版本中,我们明显能感知到大模型很像人,但在回答很多复杂问题时大模型却都只能给出一些似是而非的答案。本质原因是当时的大模型基于概率而非因果,其次它缺乏人类所具备的使用工具、记忆、规划等能力,而AI Agent可以补齐这些缺陷。所以用一个公式来概括,AI Agent(智能体)=LLM(大模型)+ Planning(规划)+Memory(记忆)+ Tools(工具)。

基于提示词(Prompt)的大模型更像是一个静态的人,我们输入的时候,它才有生命,智能体的目标则是一个更为真实的人。现如今圈内的智能体主要是基于Meta开源的Llama 70b或405b版本(两者参数不同)的微调模型,具备记忆及使用API接入工具的能力,在其他方面则可能需要人类的帮助或输入(包括与其它智能体的交互协作),所以我们能看到如今圈内主要的智能体还是以KOL的形式存在于社交网络上。要想使智能体更像人,需要接入规划和行动能力,而规划中的子项思维链尤为关键。

三、思维链(Chain of Thought, CoT)

思维链(Chain of Thought, CoT)的概念最早出现于2022年Google发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中,论文指出可以通过生成一系列中间推理步骤来增强模型的推理能力,帮助模型更好地理解和解决复杂问题。

一个典型的CoT Prompt包含三个部分:指令明确的任务描述逻辑依据支持任务解决的理论基础或原理示例具体的解决方案展示这种结构化的方式有助于模型理解任务要求,通过逻辑推理逐步接近答案,从而提高了解决问题的效率和准确性。CoT特别适合需要深入分析和多步骤推理的任务,如数学问题求解、项目报告撰写等简单任务,CoT可能不会带来明显优势,但对复杂任务,它能显著提高模型的表现,通过分步解决策略减少错误率,提高任务完成的质量。

在构建AI Agent时,CoT起到了关键作用,AI Agent需要理解接收到的信息并据此做出合理决策,CoT通过提供有序的思考方式,帮助Agent有效处理和分析输入信息,将解析结果转化为具体行动指南这种方法不仅增强了Agent决策的可靠性和效率,还提高了决策过程的透明度,使Agent的行为更加可预测和可追踪CoT通过将任务分解为多个小步骤,有助于Agent细致考虑每个决策点,减少因信息过载导致的错误决策,CoT使得Agent的决策过程更加透明,用户更容易理解Agent的决策依据。在与环境互动中,CoT允许Agent不断学习新信息,调整行为策略。

CoT作为一种有效的策略,不仅提升了大型语言模型的推理能力,还在构建更加智能、可靠的AI Agent方面发挥了重要作用。通过利用CoT,研究人员和开发者能够创造出更加适应复杂环境、具备高度自主性的智能系统。CoT在实际应用中展示了其独特的优势,特别是在处理复杂任务时,通过将任务分解为一系列小步骤,不仅提高了任务解决的准确性,还增强了模型的可解释性和可控性。这种逐步解决问题的方法,可以大大降低在面对复杂任务时,因信息过多或过于复杂,而导致的错误决策。同时,这种方法也提高了整个解决方案的可追踪性和可验证性。

CoT的核心功能在于将计划、行动与观察相互结合,弥补推理与行动之间的差距。这种思考模式允许AI Agent在预测可能遇到的异常情况时制定有效的对策,以及在与外部环境交互的同时积累新信息、验证预先设定的预测,提供新的推理依据。CoT就像是一个强大的精确度和稳定性引擎,帮助AI Agent在复杂环境中保持高效的工作效率。

四、正确的伪需求

Crypto究竟要与AI技术栈的那些方面进行结合?去年的文章中我认为算力与数据的去中心化是帮助小企业和个人开发者节省成本的关键步骤,而在今年Coinbase所整理的Crypto x AI细分赛道中,我们看到了更详细的划分:

(1)计算层(指专注于为 AI 开发者提供图形处理单元(GPU)资源的网络);

(2)数据层(指支持 AI 数据管道去中心化访问、编排和验证的网络);

(3)中间件层(指支持 AI 模型或智能体的开发、部署和托管的平台或网络);

(4)应用层(指利用链上 AI 机制的面向用户的产品,无论是 B2B 还是 B2C)。

在这四个划分层中,每一层都有宏大的愿景,其目标总结而言都是为了对抗硅谷巨头霸占互联网的下个时代。正如我在去年所说的我们真的要接受硅谷巨头独家控制算力、数据?在他们垄断下的闭源大模型其内部又是一个黑盒,科学作为当今人类最信仰的宗教,未来大模型所回答的每句话都会被很大一部分人视为真理,但这个真理又该如何验证?按照硅谷巨头的设想,智能体最终所拥有的权限将超乎想象,比如拥有你钱包的支付权,使用终端的权利,如何保证人无恶念?

去中心化是唯一的答案,但有的时候我们是否需要合理的去综合考虑,这些宏大愿景的买单者有多少?在过往我们可以不考虑商业闭环的情况下,通过Token去弥补理想化带来的误差。而现如今的情势则非常严峻,Crypto x AI更需结合现实情况再做设计,比如算力层在性能损失且不稳定的情况下供给两端到底要怎么平衡?以实现匹配中心化云的竞争力。数据层的项目究竟会有多少真实用户,如何检验所提供数据的真实有效性,又有什么样的客户需要这些数据?其余二层皆是同理,在这个时代我们不需要那么多看似正确的伪需求。

五、Meme跑出了SocialFi

正如我在第一段所说的Meme已经用超极速的方式,走出了符合Web3的SocialFi形态。Friend.tech是打响本轮社交应用第一枪的Dapp,但无奈败在急于求成的Token设计。Pump.fun则验证了纯平台化的可行性,不做任何Token,不做任何规则。注意力的需求者和供给者统一,你可以在平台上发梗图、做直播、发币、留言、交易,一切都是自由的,Pump.fun只收取服务费。这与如今YouTube,Ins等社交媒体的注意力经济模式基本一致,只不过收费对像不同,玩法上Pupm.fun则更Web3。

Base的Clanker则是集大成者,得益于生态亲自操刀的一体化生态,Base有自己的社交Dapp作为辅助,形成完整的内部闭环。智能体Meme是Meme Coin的2.0形态,人总是图新鲜,而Pump.fun如今恰好又处在风口浪尖处,从趋势上来看硅基生物的胡思乱想取代碳基生物的低俗梗只是时间问题。

我已经第无数次提到了Base,只是每次提及的内容不同,从时间线上看Base从来都不是先发者,但却总是赢家。

六、智能体还能是什么?

从务实的角度讲,智能体在未来很长一段时间内是不可能去中心化的,以传统AI领域对智能体的搭建来看,它不是简单的推理过程去中心化和开源就能解决的问题,它需要接入各种API去访问Web2的内容,它的运行成本很昂贵,思维链的设计及多智能体的协作通常还是依赖于一个人类作为媒介。我们会经历很漫长的一个过渡期,直到出现一个合适的融合形态,或许就像UNI一样。但同上一篇文章一样我依然觉得智能体将对我们行业形成很大的冲击,正如Cex在我们行业中的存在一样,不正确但很重要。

斯坦福&微软上月发出的《AI Agent综述》一文,大量描述了智能体在医疗业、智能机器、虚拟世界的应用,而在这篇文章的附录中已经有非常多GPT-4V作为智能体参与进顶级3A游戏开发中的试验案例。

不必太强求它与去中心化结合的速度,我更希望智能体首先补齐的拼图是自下而上的能力与速度,我们有那么多的叙事废墟以及空白的元宇宙需要它填满,在合适的阶段我们再考虑如何让它成为下一个UNI。

参考资料

大模型“涌现”的思维链,究竟是一种什么能力? 作者:脑极体

一文读懂Agent,大模型的下一站 作者:LinguaMind