模擬世界(世界模型)的能力被一些專家認為是人工智慧「感知」和重建物理世界的下一個重要步驟。

一些公司或實驗室正在推動人工智慧的世界建模能力。其中,人工智慧先驅之一李飛飛教授的世界實驗室籌集了2.3億美元,用於建立「大世界模型」。 Google DeepMind 也聘請了 Sora 團隊負責人 Tim Brooks 和另一位專家 William Peebles 來開發「世界模擬器」。

「我們腦中的世界形像只是模型。沒有人能夠想像一個完整的世界、政府或國家。人們只是選擇概念和它們之間的關係,並用來代表真實的系統」 ,根據電腦工程師、電腦科學家、管理理論家和系統科學家Jay Wright Forrester 在《社會系統的反直覺行為》一書中給出的心智模型的定義美國,寫於 1971 年。

「人工智慧世界」的插圖。照片:諾維塔

世界模型被認為是心理模型的繼承者,兩者都受到人類大腦的啟發。大腦從感官中獲取抽象表徵,從而形成對周遭世界的具體理解。大腦基於模型做出的預測會影響一個人感知世界的方式。

兩位研究人員 David Ha 和 Jürgen Schmidhuber 以棒球選手的比賽方式為例。這些人只有一毫秒的時間來決定如何揮動球桿,這個參數比從視覺向大腦發送訊號所需的時間還要短。為此,他們需要在球到達之前預測球將如何投擲以及投向何處。

Ha 和 Schmidhuber 在 Github 上發布的聯合報告中寫道:“如果應用世界模型,這就是人工智慧達到人類水平的方面。”


據專家稱,像Sora這樣根據文字創建影片的人工智慧陷入了所謂的「恐怖谷」。也就是說,人工智慧生成的視頻有很多缺陷,尤其是快速運動的視頻,部分原因是演算法無法像人腦那樣預測下一個「模式」。

根據 TechCrunch 報導,影片生成人工智慧工具現在可以準確預測籃球彈跳,但它實際上並不知道原因。同樣,語言模型也無法真正理解單字和短語背後的概念。

然而,世界模型透過「理解」球彈跳的原因,使人工智慧真正變得聰明。為了獲得這種洞察力,世界模型需要接受各種資料類型的訓練,例如照片、音訊、視訊和文本,目的是對世界如何運作以及什麼是可能的解釋行動結果進行內部推斷。

Snap 前人工智慧主管兼世界建模公司 Higgsfield 執行長 Alex Mashrabov 告訴 TechCrunch:“觀眾希望他們看到的東西像現實中一樣。” “一個足夠強大的世界模型引擎將了解物體如何移動,而不必等待創建者‘畫線’讓它移動。”

但製作更好的影片只是世界模型所做的一部分。 Meta 首席人工智慧長 Yann LeCun 等領先的人工智慧研究人員預測,它們有一天可以用於數位和實體領域的複雜預測和規劃。



今年早些時候,LeCun 描述了世界模型如何幫助人工智慧系統透過推理實現預期目標。模型採用一個初始故事,例如一個髒房間的視頻,給它一個潔淨室的目標,以及實現該目標的一系列操作,例如部署吸塵器來掃地、洗碗、倒垃圾。在這個過程中,AI不僅透過攝影機和感測器進行識別,而且更深層地「知道」如何從髒到乾淨。

「我們需要能夠理解世界、能夠記住事物、有直覺、有常識的機器——能夠在與人類相同的水平上進行推理和計劃,」LeCun 說。 “當前的人工智慧系統無法完成這些任務。它們可能需要十年的時間才能出現。”

OpenAI 表示,在模擬動作(例如畫家在畫布上留下筆觸)時,Sora 可以被視為一種原始的世界模型。不過,該公司也承認,需要很長時間才能完成該功能。


儘管潛力巨大,但建立世界模型的成本很高,因為與目前相比,它需要巨大的運算能力。據估計,一個小工具可以消耗數千個最強大的 GPU 進行訓練。

此外,World Model的輸入資料量也比現有的大型語言模型大很多倍。 Higgsfield 的 Mashrabov 評論道:“模型的訓練資料必須足夠廣泛,以涵蓋不同的場景,但也必須非常具體,以便人工智慧能夠深刻理解該場景的細微差別。” “缺乏數據正在減緩進展。”

Runway AI執行長Cristóbal Valenzuela也認為,數據是建構世界模型道路上最大的障礙。 「模型需要大量數據和工程來創建一致的環境地圖以及在該環境中導航和互動的能力,」瓦倫蘇埃拉在部落格文章中寫道。



然而,馬什拉博夫認為,如果所有這些障礙都被克服,世界模型在連接人工智慧與現實世界方面將“更強”,尤其是與機器人結合時。

「今天的機器人工作能力有限,因為它們不了解周圍的環境。世界模型可以為它們提供這種能力,」他說。 “透過先進的模型,人工智慧可以對其所處的任何場景產生個人理解,並開始推斷可能的解決方案。”



$FET $NEAR $SOL