模拟世界(世界模型)的能力被一些专家认为是人工智慧「感知」和重建物理世界的下一个重要步骤。

一些公司或实验室正在推动人工智慧的世界建模能力。其中,人工智慧先驱之一李飞飞教授的世界实验室筹集了2.3亿美元,用于建立「大世界模型」。 Google DeepMind 也聘请了 Sora 团队负责人 Tim Brooks 和另一位专家 William Peebles 来开发「世界模拟器」。

「我们脑中的世界形像只是模型。没有人能够想像一个完整的世界、政府或国家。人们只是选择概念和它们之间的关系,并用来代表真实的系统」 ,根据电脑工程师、电脑科学家、管理理论家和系统科学家Jay Wright Forrester 在《社会系统的反直觉行为》一书中给出的心智模型的定义美国,写于 1971 年。

「人工智慧世界」的插图。照片:诺维塔

世界模型被认为是心理模型的继承者,两者都受到人类大脑的启发。大脑从感官中获取抽象表征,从而形成对周遭世界的具体理解。大脑基于模型做出的预测会影响一个人感知世界的方式。

两位研究人员 David Ha 和 Jürgen Schmidhuber 以棒球选手的比赛方式为例。这些人只有一毫秒的时间来决定如何挥动球杆,这个参数比从视觉向大脑发送讯号所需的时间还要短。为此,他们需要在球到达之前预测球将如何投掷以及投向何处。

Ha 和 Schmidhuber 在 Github 上发布的联合报告中写道:“如果应用世界模型,这就是人工智慧达到人类水平的方面。”


据专家称,像Sora这样根据文字创建影片的人工智慧陷入了所谓的「恐怖谷」。也就是说,人工智慧生成的视频有很多缺陷,尤其是快速运动的视频,部分原因是演算法无法像人脑那样预测下一个「模式」。

根据 TechCrunch 报导,影片生成人工智慧工具现在可以准确预测篮球弹跳,但它实际上并不知道原因。同样,语言模型也无法真正理解单字和短语背后的概念。

然而,世界模型透过「理解」球弹跳的原因,使人工智慧真正变得聪明。为了获得这种洞察力,世界模型需要接受各种资料类型的训练,例如照片、音讯、视讯和文本,目的是对世界如何运作以及什么是可能的解释行动结果进行内部推断。

Snap 前人工智慧主管兼世界建模公司 Higgsfield 执行长 Alex Mashrabov 告诉 TechCrunch:“观众希望他们看到的东西像现实中一样。” “一个足够强大的世界模型引擎将了解物体如何移动,而不必等待创建者‘画线’让它移动。”

但制作更好的影片只是世界模型所做的一部分。 Meta 首席人工智慧长 Yann LeCun 等领先的人工智慧研究人员预测,它们有一天可以用于数位和实体领域的复杂预测和规划。



今年早些时候,LeCun 描述了世界模型如何帮助人工智慧系统透过推理实现预期目标。模型采用一个初始故事,例如一个脏房间的视频,给它一个洁净室的目标,以及实现该目标的一系列操作,例如部署吸尘器来扫地、洗碗、倒垃圾。在这个过程中,AI不仅透过摄影机和感测器进行识别,而且更深层地「知道」如何从脏到干净。

「我们需要能够理解世界、能够记住事物、有直觉、有常识的机器——能够在与人类相同的水平上进行推理和计划,」LeCun 说。 “当前的人工智慧系统无法完成这些任务。它们可能需要十年的时间才能出现。”

OpenAI 表示,在模拟动作(例如画家在画布上留下笔触)时,Sora 可以被视为一种原始的世界模型。不过,该公司也承认,需要很长时间才能完成该功能。


尽管潜力巨大,但建立世界模型的成本很高,因为与目前相比,它需要巨大的运算能力。据估计,一个小工具可以消耗数千个最强大的 GPU 进行训练。

此外,World Model的输入资料量也比现有的大型语言模型大很多倍。 Higgsfield 的 Mashrabov 评论道:“模型的训练资料必须足够广泛,以涵盖不同的场景,但也必须非常具体,以便人工智慧能够深刻理解该场景的细微差别。” “缺乏数据正在减缓进展。”

Runway AI执行长Cristóbal Valenzuela也认为,数据是建构世界模型道路上最大的障碍。 「模型需要大量数据和工程来创建一致的环境地图以及在该环境中导航和互动的能力,」瓦伦苏埃拉在部落格文章中写道。



然而,马什拉博夫认为,如果所有这些障碍都被克服,世界模型在连接人工智慧与现实世界方面将“更强”,尤其是与机器人结合时。

「今天的机器人工作能力有限,因为它们不了解周围的环境。世界模型可以为它们提供这种能力,」他说。 “透过先进的模型,人工智慧可以对其所处的任何场景产生个人理解,并开始推断可能的解决方案。”



$FET $NEAR $SOL