作者:Teng Yan,Chain of Thought;翻译:金色财经xiaozou
我有一大遗憾至今还在困扰着我,对任何关注它的人来说,它无疑是最明显的投资机会,但我没有投入一分钱。不,我说的不是下一个Solana killer,也不是带着滑稽帽子的狗狗meme币。
而是……NVIDIA。
在短短一年的时间里,NVDA的市值从1万亿美元飙升至3万亿美元,增长了3倍,甚至超过了同期的比特币。
这当中当然少不了人工智能炒作,但有很大一部分是有现实基础的。NVIDIA公布其2024财年的收入为600亿美元,比2023财年增长了126%,表现惊人。
那我为什么错过了呢?
两年来,我一直专注于加密领域,并没有放眼看外面的世界,没有关注到人工智能领域。我真是犯了个大错,至今仍令我耿耿于怀。
但我不会再犯同样的错误。
今天,Crypto AI给人的感觉非常相似。我们正处在创新大爆发的边缘。这与19世纪中期加州淘金热太像了,让人难以忽视——工业和城市一夜之间兴起,基础设施以极快的速度发展,财富是由敢想敢干的人创造的。
就像早期的NVIDIA一样,事后看来,Crypto AI也将是显而易见的机会。
本文第一部分,我将阐述为什么Crypto AI对投资者和建设者来说是当今最令人兴奋的弱者机会。
简单概述如下:
许多人仍然认为它是幻想。
Crypto AI还处于早期阶段,距离炒作顶峰可能还有1-2年的时间。
这个领域至少有2300亿美元以上的增长机会。
从本质上讲,Crypto AI是一种基于加密基础设施的AI。这意味着它更有可能跟随人工智能的指数增长轨迹,而不是更广泛的加密市场。因此,为了不掉队,必须要关注Arxiv上最新的人工智能研究,并与那些相信自己正在创建下一个了不起的产品和服务的创始人交谈。
本文第二部分,我将深入研究Crypto AI中最有前途的四个子领域:
去中心化计算:训练、推理和GPU市场
数据网络
可验证AI
链上运行的AI代理
为撰写本文,我花了好几周的时间进行深入研究,与Crypto AI领域的创始人和团队交谈,而本文则是这些努力的结晶。本文并不会详尽地深入到每一个领域,相反,你可以把它看作是一个高层路线图,旨在激发你的好奇心,提高你的研究水平,指导你的投资思维。
1、Crypto AI格局
我把去中心化的人工智能堆栈描绘成一个若干层生态系统:它的一端始于去中心化计算和开放数据网络,为去中心化人工智能模型训练提供支持。
然后,结合使用密码学、加密经济激励机制和评估网络来验证每条推断——输入和输出均如此。这些经验证的输出流向可在链上自主运行的人工智能代理,以及用户可以真正信任的消费者和企业AI应用程序。
协调网络将一切联系在一起,实现整个生态系统的无缝通信和协作。
在这个愿景中,任何构建人工智能的人都可以根据自己的具体需求,利用这个堆栈的一层或多个层。无论是利用去中心化计算进行模型训练,还是使用评估网络来确保高质量的输出,该堆栈都提供了一系列选择。
由于区块链固有的可组合性,我相信我们将自然而然地走向模块化未来。每一层都正变得高度专业化,协议针对不同的功能进行优化,而不是采用一体化集成方法。
在去中心化人工智能堆栈的每一层都聚集了大量初创公司,其中大多数是在过去的1-3年里成立的。很明显,该领域还处于早期阶段。
我所见过的最全面最新的Crypto AI创业地图是由Casey和她的团队在topology.vc上维护的。这对任何追踪该领域的人来说都是无价的资源。
当我深入研究Crypto AI子领域时,我不断问自己:其中的机会有多大?我对小打小闹不感兴趣——我寻找的是能达到数千亿美元规模的市场。
(1)市场规模
让我们先来看市场规模。当评估一个细分领域时,我会问自己:它是在创造一个全新市场还是在破坏一个现有市场?
以去中心化计算为例。这是一个颠覆性的类别,其潜力可以通过观察现有的云计算市场来评估,目前市值约为6800亿美元,预计到2032年将达到2.5万亿美元。
史无前例的新市场,比如人工智能代理,则更难量化。在没有历史数据的情况下,对它们的评估需要根据的猜测以及评估他们正在解决的问题。需要注意的是,有时候,看起来像一个新市场的东西,实际上只是一个努力寻找问题的解决方案。
(2)时机
时机就是一切。随着时间的推移,技术往往会改进并变得成本更低,但发展速度各不相同。
某一特定细分领域的技术成熟程度如何?它是否已经准备好实现规模化采用,还是仍处于研究阶段,实际应用还需要几年时间?时机决定了一个行业是值得人们立即关注还是“观望”。
以全同态加密(FHE)为例:其潜力是不可否认的,但目前它的发展速度仍然太慢,无法被广泛使用。我们可能还需要几年时间才能看到它受到主流采用。通过首先关注更接近规模化的领域,我可以把时间和精力花在正在积聚势头和机会的领域。
如果我要把这些类别映射到一个规模与时间图表上,它看起来就像这样。请记住,这还是一个概念图,而不是一个硬性指南。有很多细微差别——例如,在可验证推理中,不同的方法(如zkML和opML)具有不同的使用就绪级别。
也就是说,我相信人工智能的规模将如此之大,即使是今天看起来“小众”的领域也可能演变成一个重要的市场。
同样值得注意的是,技术进步并不总是沿着一条直线前进——它经常是突飞猛进的。当突然爆发时,我对时机和市场规模的看法将发生变化。
有了这个框架,让我们来具体来看各个子领域。
2、领域一:去中心化计算
去中心化计算是去中心化人工智能的支柱。
GPU市场、去中心化训练和去中心化推理是紧密联系在一起的。
供应端通常来自中小型数据中心和消费者GPU。
需求面虽小,但仍在增长。如今,它来自对价格敏感、对延迟不敏感的用户和规模较小的人工智能初创公司。
目前Web3 GPU市场面临的最大挑战是如何让它们正常运行。
在去中心化网络上协调GPU需要先进的工程技术和设计良好、可靠的网络架构。
2.1 GPU市场/计算网络
有几个Crypto AI团队正在针对无法满足需求的GPU短缺,建立去中心化网络,利用全球的潜在算力。
GPU市场的核心价值主张有3方面:
你可以以比AWS“低90%”的价格访问计算,这是因为没有中间商并开放了供应端。从本质上讲,这些市场允许你利用全球最低的边际计算成本。
更大的灵活性:没有锁定合同,没有KYC流程,没有等待时间。
抗审查性
为了解决市场供应端问题,这些市场的算力来源于:
难寻需求的中小型数据中心的企业级GPU(例如A100、H100),或者是寻求多样化的比特币矿工。我还知道一些团队致力于政府资助的大型基础设施项目,在这些项目中,作为技术增长计划一部分的数据中心已经建成。这些GPU提供商通常被激励将他们的GPUT保留在网络上,这有助于他们抵消GPU的摊销成本。
数百万玩家和家庭用户的消费级GPU,他们将电脑连接到网络换取代币奖励。
另一方面,今天对去中心化计算的需求来自:
价格敏感、延迟不敏感的用户。这个细分市场优先考虑价格而不是速度。想想探索新领域的研究人员、独立AI开发者和其他不需要实时处理的成本意识较强的用户。由于受预算限制,他们中的许多人可能不满于传统的超大规模服务器(如AWS或Azure)。因为他们在人群中分布很广,所以有针对性的营销对于吸引这一群体至关重要。
小型人工智能初创公司,他们面临着在不与主要云提供商签订长期合同的情况下获得灵活、可扩展的计算资源的挑战。业务发展对于吸引这一细分市场至关重要,因为他们正在积极寻求超大规模锁定的替代方案。
Crypto AI初创公司,他们构建去中心化人工智能产品,但没有自己的算力供应,将需要利用其中一个网络的资源。
云游戏:虽然不是直接由AI驱动的,但云游戏对GPU资源的需求正越来越大。
要记住的关键一点是:开发人员总是优先考虑成本和可靠性。
真正的挑战在于需求,而非供给。
这一领域的初创公司经常将其GPU供应网络的规模作为成功的标志。但这是一种误导——它充其量不过是一种虚荣的衡量标准。
真正的制约因素不是供给,而是需求。跟踪的关键指标不是可用的GPU数量,而是利用率和实际出租的GPU数量。
代币在引导供应方面表现出色,创造了迅速扩大规模所需的激励。然而,它们并不能从本质上解决需求问题。真正的考验是让产品达到一个足够好的状态,从而实现潜在需求。
关于这一点,Haseeb Qureshi(Dragonfly)说得好:
使计算网络真正可以工作
与普遍的看法相反,web3分布式GPU市场目前面临的最大障碍就是让它们正常工作。
这并不是一个微不足道的问题。
在分布式网络中协调GPU是非常复杂的,有很多挑战——资源分配、动态工作负载扩展、节点和GPU间的负载平衡、延迟管理、数据传输、容错以及处理分散在不同地理位置的各种硬件。我还可以继续说下去。
实现这一点需要深思熟虑的工程设计和可靠的、设计合理的网络架构。
为了更好地理解,想想谷歌的Kubernetes。它被普遍认为是容器编排的黄金标准,在分布式环境中自动化负载平衡和扩展等过程,这与分布式GPU网络面临的挑战非常相似。Kubernetes本身是建立在谷歌十多年的经验基础上的,即使在那时,它也需要数年的不懈迭代才能表现良好。
目前已经上线的一些GPU计算市场可以处理小规模的工作负载,但一旦它们尝试扩展,就会出现问题。我怀疑这是因为它们的架构基础设计很糟糕。
去中心化计算网络的另一个挑战/机遇是确保可信度:验证每个节点实际上提供了所声称的计算能力。目前,这依赖于网络声誉,在某些情况下,算力提供商根据声誉评分进行排名。区块链似乎很适合于无需信任的验证系统。像Gensyn和Spheron这样的初创公司正在力求使用一种无需信任的方法来解决这个问题。
今天,许多web3团队仍在应对这些挑战,这也意味着机会之门是敞开的。
去中心化计算市场规模
去中心化计算网络市场有多大?
如今,它可能只是价值6800亿至2.5万亿美元的云计算行业的一小部分。然而,尽管增加了用户的摩擦,但只要成本低于传统供应商,总是会有需求的。
我相信,由于代币补贴和对价格不敏感的用户的供应解锁,成本将在中短期内保持较低水平(例如,如果我能出租我的游戏笔记本电脑赚取额外现金,无论是每月20美元还是50美元,我都会很高兴的)。
但是去中心化计算网络的真正增长潜力——以及它们的TAM的真正扩展——将出现于下列情况之中:
人工智能模型去中心化训练变得实用。
对推理的需求激增,现有数据中心无法满足需求。这种情况已经开始显现。Jensen Huang表示,推理需求将增长“十亿倍”。
适当的服务水平协议(SLA)变得可用,解决企业采用的一大关键障碍。目前,去中心化计算的运行情况让用户感受到不同水平的服务质量(例如正常运行时间占比)。有了SLA,这些网络可以提供标准化的可靠性和性能指标,使去中心化计算成为传统云计算提供商的可行替代方案。
去中心化无需许可计算是去中心化人工智能生态系统的基础层——基础设施。
尽管GPU的供应链正在不断扩大,但我相信我们尚处于人类智能时代的黎明。对计算的需求将是无法满足的。
需要注意可能引发所有运行GPU市场重新评级的拐点,可能很快就会到来。
其他注意事项:
纯粹的GPU市场是拥挤的,去中心化平台之间竞争激烈,以及web2 AI新兴云服务(如Vast.ai和Lambda的崛起。
小节点(如4 x H100)的需求并不大,因为它们的使用有限,但是祝你好运能够找到销售大型集群的人——它们仍然有一定的需求。
一个占主导地位的玩家会为去中心化协议聚合所有算力供应,还是会在多个市场中保持算力分散?我倾向于前者,因为整合通常会提高基础设施效率。但这需要时间,与此同时,分裂和混乱仍在继续。
开发人员希望专注于应用程序开发,而不是应对部署和配置。市场必须抽象出这些复杂性,使计算访问尽可能无摩擦。
2.2 去中心化训练
如果扩展定律成立,那么在单个数据中心训练下一代前沿人工智能模型将在某一天变得不可能。
训练AI模型需要在GPU之间传输大量数据。分布式GPU之间较低的数据传输(互连)速度通常是最大的障碍。
研究人员正在同步探索多种方法,并且正在取得突破(例如Open DiLoCo、DisTrO)。这些进步将叠加聚集,加速该领域的进步。
去中心化训练的未来可能系于为小众应用设计小型专用模型,而不是前沿的、以AGI为中心的模型。
随着向OpenAI o1等模型的转变,推理需求将会飙升,为去中心化推理网络创造机会。
想象一下:一个巨大的、改变世界的人工智能模型,不是在秘密的精英实验室开发的,而是由数百万普通人塑造的。玩家们的GPU通常会创造出《使命召唤》剧场般的爆炸场面,现在他们把自己的硬件借给了更宏大的东西——一个开源的、集体拥有的、没有中央看门人的人工智能模型。
在这样一个未来,基金会规模的模型不仅囿于顶级人工智能实验室。
但让我们把这一愿景根植于当下的现实中来。目前,重量级人工智能训练的大部头仍然集中在中心化数据中心,这可能会成为一段时间的常态。
像OpenAI这样的公司正在扩大他们庞大的集群。埃隆·马斯克(Elon Musk)最近宣布,xAI即将建成一个相当于20万个H100 GPU的数据中心。
但这不仅仅关乎原始GPU计数。模型FLOPS利用率(MFU)是谷歌在2022年的PaLM研究文章中提出的一个指标,它跟踪GPU最大容量的使用效率。令人惊讶的是,MFU通常徘徊在35-40%之间。
为什么这么低?按照摩尔定律,GPU的性能在过去几年里突然飞升,但网络、内存和存储的改进却明显落后,形成了瓶颈。因此,GPU经常处于限制状态,等待数据。
今天的人工智能训练仍然高度集中,因为一个词——效率。
训练大型模型取决于以下技术:
数据并行:跨多个GPU拆分数据集并行执行操作,加速训练过程。
模型并行:将模型的各部分分布在多个GPU之间,绕过内存约束。
这些方法需要GPU不断地交换数据,互连速度——数据在网络中跨计算机传输的速率——就变得至关重要。
当前沿人工智能模型训练的成本超过10亿美元时,每一次效率提升都很重要。
通过高速互连,集中式数据中心能够在GPU之间快速传输数据,并在训练时间内节省大量成本,这是去中心化设置无法比拟的。
克服缓慢的互连速度
如果你与人工智能领域的工作人员交谈,许多人都会告诉你,去中心化训练根本行不通。
在去中心化设置下,GPU集群不是物理上共存的,因此在它们之间传输数据要慢得多,成为瓶颈。训练需要GPU在每一步同步、交换数据。它们距离越远,延迟越高。更高的延迟意味着更慢的训练速度和更高的成本。
在集中式数据中心可能需要几天的时间,在去中心化数据中心可能会延长到两周,成本也更高。这根本不可行。
但这种情况即将改变。
好消息是,人们对分布式训练的研究兴趣激增。研究人员正在同时探索多种方法,大量的研究和已发表论文证明了这一点。这些进步将叠加融合,加速该领域的进步。
这也关乎生产环境测试,看看我们能在多大程度上突破界限。
一些去中心化训练技术已经可以在缓慢的互连环境中处理较小模型。现在,前沿研究正在推动这些方法在大模型中的应用。
例如,Prime Intellect的开源DiCoLo一文展示了一种实用方法,该方法涉及GPU“孤岛”,在同步之前执行500个本地步骤,将带宽需求削减了500倍。从一开始的谷歌DeepMind对小模型的研究已经在11月内扩展到训练100亿个参数的模型,并且如今完全开源。
Nous Research正在通过他们的DisTrO框架提高标准,该框架使用优化器在训练1.2B参数模型的同时,将GPU间的通信要求降低了令10,000倍,令人瞠目结舌。
而且这种势头还在不断增强。去年12月,Nous宣布了一个15B参数模型的预训练,该模型具有损失曲线(模型误差如何随时间减少)和收敛率(模型性能稳定的速度),这与集中式训练的典型结果相匹配甚至更胜一筹。是的,比中心化要好。
SWARM Parallelism和DTFMHE是跨不同类型设备训练大型AI模型的其他不同方法,即使这些设备具有不同的速度和连接水平。
管理各种各样的GPU硬件是另一大挑战,包括去中心化网络中典型的内存受限的消费级GPU。像模型并行(跨设备划分模型层)这样的技术可以帮助实现这一点。
去中心化训练的未来
目前去中心化训练方法的模型规模仍然远远低于前沿模型(据报道,GPT-4的参数接近一万亿,比Prime Intellect的10B模型大100倍)。为了实现真正的规模化,我们需要在模型架构、更好的网络基础设施和更智能的跨设备任务分配方面取得突破。
我们可以有远大的梦想。想象一下这样一个世界:去中心化训练所聚集的GPU计算能力甚至比最大的集中式数据中心所能聚集的还要多。
Pluralis Research(一个专注于去中心化培训的精锐团队,值得密切关注)认为这不仅是可能的,而且是不可避免的。集中式数据中心受到空间和电力可用性等物理条件限制,而去中心化网络可以利用真正无限的全球资源池。
就连英伟达(NVIDIA)的Jensen Huang也承认,异步去中心化训练可以释放人工智能扩展的真正潜力。分布式训练网络也更具有容错性。
因此,在一个可能的未来世界,全球最强大的人工智能模型将以一种去中心化方式被训练。
这是一个令人兴奋的前景,但我目前还没有完全相信。我们需要更有力的证据来证明,对最大的模型进行去中心化训练在技术上和经济上都是可行的。
我在这当中看到了巨大的希望:去中心化训练最好的一点可能在于为目标用例设计的小型专用开源模型,而不是与超大的AGI驱动的前沿模型竞争。某些架构,尤其是非transformer模型,已经被证明非常适合去中心化设置。
这个谜题还有另一部分:代币。一旦去中心化训练在规模上变得可行,代币就可以在激励和奖励贡献者方面发挥关键作用,有效地引导这些网络。
实现这一愿景的道路还很漫长,但进展令人鼓舞。由于未来模型的规模将超过单个数据中心的容量,去中心化训练的进步将使所有人受益,甚至包括大型科技公司和顶级人工智能研究实验室。
未来是分布式的。当一项技术拥有如此广泛的潜力时,历史表明它总是比所有人预期的都要更好、更快。
2.3. 去中心化推理
目前,人工智能的大部分计算能力都集中在训练大规模模型上。顶尖的人工智能实验室正在进行一场竞赛,看谁能开发出最好的基础模型,并最终实现AGI。
但我的看法是:在未来几年,这种专注于训练的计算将转向推理。随着人工智能越来越多地融入到我们日常使用的应用程序中——从医疗保健到娱乐——支持推理所需的计算资源量将非常惊人。
这不仅仅是猜测。推理时间计算扩展(inference-time compute scaling)是人工智能领域的最新流行语。OpenAI最近发布了其最新模型01(代号:Strawberry)的预览/迷你版,这是一个重大转变吗?需要花时间思考,首先问自己应该采取哪些步骤来回答这个问题,然后逐步进行。
这个模型是为更复杂的、需要大量计划的任务而设计的,比如填字游戏,以及需要更深层推理的问题。你会注意到它变慢了,需要更多的时间来生成响应,但结果却更加深思熟虑和细致入微。它的运行成本也高得多(是GPT-4的25倍)。
重心的转变很明显:人工智能性能的下一个飞跃将不仅仅来自训练更大的模型,还来自在推理过程中扩展计算应用。
如果你想了解更多,一些研究文章表明:
通过重复采样来扩展推理计算,可以在各种任务之间获得很大的改进。
也有一个用于推理的扩展指数定律。
一旦强大的模型被训练出来,它们的推理任务——模型所做的事情——就可以被转移到去中心化计算网络上。这不无道理,因为:
与训练相比,推理所需的资源要少得多。经过训练后,可以使用量化(quantization)、剪枝(pruning)或蒸馏(distillation)等技术对模型进行压缩和优化。它们甚至可以分解在日常消费设备上运行。你不需要高端GPU来支持推理。
这已经发生了。Exo Labs已经找到了如何在MacBook和Mac Mini等消费级硬件上运行450B参数Llama3模型的方法。跨多设备分布推理可以高效且经济地处理大规模工作负载。
更好的用户体验。在离用户更近的地方运行计算可以减少延迟,这对于游戏、AR或自动驾驶汽车等实时应用至关重要。每一毫秒都很重要。
把去中心化推理想象成人工智能的CDN(内容分发网络):去中心化推理利用本地计算能力,在创纪录的时间内提供人工智能响应,而不是通过连接到附近的服务器来快速提供网站。通过采用去中心化推理,人工智能应用程序变得更高效、响应更快、更可靠。
趋势很明显。苹果新推出的M4 Pro芯片与英伟达的RTX 3070 Ti竞争,直到最近,RTX 3070 Ti还是硬核游戏玩家的领地。我们的硬件越来越有能力处理高级人工智能工作负载。
Crypto的增值
去中心化推理网络要想取得成功,就必须有令人信服的经济激励。网络中的节点需要因其算力贡献获得补偿。该制度必须确保公平有效地分配奖励。地理多样性是必要的,可以减少推理任务的延迟,并提高容错性。
建立去中心化网络的最佳方式是什么?Crypto。
代币提供了一种强大的机制来协调参与者的利益,确保每个人都朝着同一个目标努力:扩展网络并提高代币价值。
代币也加速了网络的增长。它们通过奖励早期采用者以及从第一天起推动参与度,帮助解决了经典的鸡生蛋还是蛋生鸡的问题,这个问题阻碍了大多数网络的发展。
比特币和以太坊的成功证明了这一点——它们已经聚集了地球上最大的算力池。
去中心化推理网络将是下一个。由于地域的多样性,它们减少了延迟,提高了容错性,使人工智能更接近用户。在加密激励下,它们将比传统网络更快、更好地扩展。
(未完待续,敬请关注)