原標題:《The Next Generation Pixar: How AI will Merge Film & Games》

作者:Jonathan Lai

編譯:深潮TechFlow

 

在過去的一個世紀中,技術變革催生了許多我們最喜愛的故事。以1930年代爲例,迪士尼發明了多平面攝影機,並首次製作了聲音同步的全綵動畫。這項技術突破促成了開創性動畫電影《白雪公主和七個小矮人》的誕生。"

在 1940 年代,漫威和 DC 漫畫崛起,被譽爲“漫畫的黃金時代”,這得益於四色旋轉印刷機和膠印技術的廣泛應用,使漫畫得以大規模印刷。該技術的侷限性——低分辨率、有限的色調範圍、在廉價新聞紙上的點陣印刷——形成了我們今天仍能識別的標誌性“紙漿”外觀。

同樣,皮克斯在 1980 年代也處於獨特的地位,可以利用新技術平臺——計算機和 3D 圖形。聯合創始人埃德溫·卡特穆爾 (Edwin Catmull) 是 NYIT 計算機圖形實驗室和盧卡斯影業的早期研究人員,開闢了基礎 CGI 概念,後來推出了第一部完全由計算機生成的動畫長片《玩具總動員》。皮克斯的圖形渲染套件 Renderman 至今已應用於超過 500 部電影。

在每一波技術浪潮中,最初作爲新奇事物的早期原型逐步演變爲深度敘事的新格式,由一代又一代的新創作者引領。今天,我們相信下一個皮克斯即將誕生。生成式人工智能 (Generative AI) 正在推動創意敘事的根本性轉變,使新一代人類創作者能夠以全新的方式講述故事。

具體而言,我們認爲下個世紀的皮克斯不會通過傳統的電影或動畫誕生,而是通過互動視頻。這種新的敘事格式將會模糊視頻遊戲與電視/電影之間的界限——將深度敘事與觀衆的主動性和“遊戲”融合,開啓一個巨大的新市場。

遊戲:現代敘事的前沿

今天有兩個主要浪潮正在涌現,這可能加速新一代敘事公司的形成:

  1. 消費者向互動媒體(而不是線性/被動媒體,即電視/電影)的轉變

  2. 由生成式人工智能驅動的技術進步

在過去的 30 年中,我們看到消費者的轉變持續加深,遊戲和互動媒體在每一代人中變得越來越受歡迎。對於 Z 世代及更年輕一代,遊戲現在是他們花費閒暇時間的首選,勝過了電視和電影。2019 年,Netflix 首席執行官裏德·哈斯廷斯曾在一封給股東的信中表示:“我們與 Fortnite 的競爭(並且常常輸給它)超過了 HBO。”對於大多數家庭來說,問題是“我們在玩什麼”而非“我們在看什麼”。

儘管電視、電影和書籍仍然講述引人入勝的故事,但許多最具創新性和成功的新故事如今正是在遊戲中講述的。比如《哈利·波特》。開放世界角色扮演遊戲《霍格沃茨的遺產》讓玩家體驗成爲霍格沃茨新生的沉浸感,前所未有。這款遊戲是 2023 年的暢銷作品,上市時收入超過 10 億美元,票房超越了除最後一部《哈利·波特:死亡聖器(下)》外的所有《哈利·波特》電影(10.3 億美元)。

遊戲知識產權(IP)最近在電視和電影改編中也取得了巨大成功。頑皮狗的《最後的生還者》在 2023 年成爲 HBO Max 收視率最高的劇集,每集平均有 3200 萬觀衆。《超級馬里奧兄弟》電影以 14 億美元的票房創造了動畫電影全球首個週末的最大開局。此外,還有備受好評的《輻射》劇集、派拉蒙的《光環》劇集、湯姆·霍蘭德的《古墓麗影》電影、邁克爾·貝的《Skibidi Toilet》電影——還有很多。

互動媒體如此強大的一個關鍵原因是,積極參與有助於建立對故事或宇宙的親密感。玩遊戲一小時的注意力遠勝於被動看電視一小時。許多遊戲也具有社交性,核心設計中融入了多人機制。最令人難忘的故事往往是我們與親友共同創作和分享的。

觀衆在多個媒介(觀看、遊戲、創作、分享)中與知識產權持續互動,這使得故事不僅僅成爲娛樂,還成爲個人身份的一部分。神奇的轉變發生在一個人從單純的"《哈利·波特》觀衆"成長爲"忠實的波特迷"時,後者更具持久性,圍繞曾是單人活動的內容建立身份和多人社區。

總的來說,儘管我們歷史上最偉大的故事是在線性媒體中講述的,但展望未來,遊戲和互動媒體將成爲未來故事的講述之地——因此我們相信下一個世紀最重要的敘事公司將會在這裏誕生。

互動視頻:敘事與遊戲的結合

鑑於遊戲在文化中的主導地位,我們相信下一個皮克斯將通過一種將敘事與遊戲結合的媒體格式出現。我們看到的一種潛力巨大的格式是互動視頻。

首先,什麼是互動視頻,它與視頻遊戲有什麼不同?在視頻遊戲中,開發者將一組資源預先加載到遊戲引擎中。例如,在《超級馬里奧兄弟》中,藝術家設計了馬里奧角色、樹木和背景。程序員設定馬里奧在玩家按下“A”按鈕後跳躍 50 像素。跳躍幀利用傳統的圖形管線渲染。這導致遊戲架構高度確定性和計算性,開發者完全控制。

而互動視頻則是完全依賴神經網絡實時生成幀。除了創意提示(可以是文本或代表性圖像)外,不需要上傳或創建任何資源。實時 AI 圖像模型接收玩家輸入(例如“上”按鈕),並概率性地推測下一個生成的遊戲幀。

互動視頻的前景在於將電視和電影的可及性與敘事深度融合,同時結合視頻遊戲的動態、玩家驅動的系統。每個人都知道如何觀看電視並跟隨線性故事。通過增加基於玩家輸入實時生成的視頻,我們可以創造個性化和無限的遊戲體驗——這可能使媒體作品能夠吸引粉絲數千小時。暴雪的《魔獸世界》已經超過 20 年,今天仍然保留着約 700 萬的訂閱用戶。

互動視頻還提供多種消費方式——觀衆可以像觀看電視節目一樣輕鬆享受內容,也可以在其他時候主動在移動設備或手柄上進行遊戲。讓粉絲以儘可能多的方式體驗他們最喜歡的知識產權宇宙是跨媒體敘事的核心,這有助於增強對知識產權的親密感。

在過去十年中,許多敘事者嘗試實現互動視頻的願景。一個早期的突破是 Telltale 的《行屍走肉》——這是一個基於羅伯特·柯克曼的漫畫系列的互動體驗,玩家觀看動畫場景的展開,但在關鍵時刻通過對話和快速反應事件做出選擇。這些選擇——例如決定在殭屍襲擊中拯救哪個角色——創造了個性化的故事變體,使每次遊戲體驗都與衆不同。《行屍走肉》於 2012 年推出,取得了巨大的成功——獲得了多個年度遊戲獎,並至今銷量超過 2800 萬份。

2017 年,Netflix 也進入互動視頻領域——從動畫作品《貓咪書籍》開始,最終發佈了備受好評的《黑鏡:潘達斯奈奇》,這是一部真人電影,觀衆爲一位年輕程序員在改編幻想書籍爲視頻遊戲的過程中做出選擇。潘達斯奈奇成爲假日現象,吸引了一批狂熱粉絲,他們製作流程圖以記錄電影的每一個可能結局。

然而,儘管獲得了積極評價,潘達斯奈奇和《行屍走肉》都面臨着生存危機——手動創建定義該格式的無數分支故事的時間和成本都過於昂貴。隨着 Telltale 擴展到多個項目,他們在開發者中建立了加班文化,開發者抱怨“疲勞和被燒盡”。敘事質量受到影響——雖然《行屍走肉》起初的 Metacritic 評分是 89,但四年後 Telltale 發佈他們最大的 IP 之一《蝙蝠俠》時卻只獲得了不盡如人意的 64 分。2018 年,Telltale 宣佈破產,未能建立可持續的商業模式。

對於《潘達斯奈奇》,劇組拍攝了 250 個視頻片段,包括 5 個多小時的鏡頭,以解釋電影的 5 個結局。預算和製作時間據報道是標準《黑鏡》劇集的兩倍,節目製作人表示項目的複雜性相當於“同時製作 4 集”。最終在 2024 年,Netflix 決定關閉整個互動特別節目部門——轉而製作傳統遊戲。

直到現在,互動視頻項目的內容成本與遊戲時間呈線性關係——沒有辦法繞過這個問題。然而,生成式人工智能模型的進步可能是推動互動視頻規模化的關鍵。

生成模型將很快足夠快以支持互動視頻

最近在圖像生成模型蒸餾方面的進展令人驚歎。在 2023 年,潛在一致性模型和 SDXL Turbo 的發佈顯著提升了圖像生成的速度和效率,使得高分辨率渲染只需一步,而以前需要 20-30 步,成本也降低了超過 30 倍。生成視頻的想法——一系列具有幀間變化的一致圖像——突然變得極具可行性。

今年早些時候,OpenAI 引起了廣泛關注,宣佈推出 Sora,這是一個文本到視頻模型,可以生成最長 1 分鐘的視頻,同時確保視覺一致性。沒過多久,Luma AI 發佈了速度更快的視頻模型 Dream Machine,能夠在 120 秒內生成 120 幀(約 5 秒的視頻)。Luma 最近分享他們在短短 7 周內吸引了驚人的 1000 萬用戶。上個月,Hedra Labs 發佈了 Character-1,這是一個以角色爲重點的多模態視頻模型,可以在 90 秒內生成 60 秒的視頻,展現表現豐富的人類情感和配音。而 Runway 最近推出了 Gen-3 Turbo,一個可以在僅 15 秒內渲染出 10 秒片段的模型。

今天,一位有抱負的電影製作人可以快速從文本提示或參考圖像生成幾分鐘的 720p 高清視頻內容,並可以與起始或結束關鍵幀配對以增加具體性。Runway 還開發了一套編輯工具,提供對擴散生成的視頻進行更精細控制,包括幀內攝像機控制、幀插值和運動畫筆。Luma 和 Hedra 也將在不久後推出各自的創作者工具套件。

儘管製作工作流程仍處於早期階段,但我們已經遇到了幾位內容創作者,他們正在使用這些工具講述故事。Resemblance AI 創建了 Nexus 1945,這是一個引人注目的 3 分鐘的二戰替代歷史故事,由 Luma、Midjourney 和 Eleven Labs 製作。獨立電影製作人 Uncanny Harry 與 Hedra 一起創作了一部賽博朋克短片,創作者們還製作了音樂視頻、預告片、旅行視頻博客,甚至快餐漢堡廣告。自 2022 年以來, Runway 每年都會舉辦人工智能電影節,評選出 10 部優秀的 AI 製作短片。

需要特別指出的是,當前仍存在一些侷限性——由提示生成的 2 分鐘片段與由專業團隊製作的 2 小時長片之間在敘事質量和控制方面仍存在明顯差距。根據提示或圖像生成創作者所想要的內容往往很困難,即使是經驗豐富的提示工程師通常也會放棄大部分生成的內容。AI 創作者 Abel Art 報告稱,生成 1 分鐘連貫視頻需要約 500 個視頻。圖像一致性通常在連續視頻播放一兩分鐘後開始失效,並且通常需要手動編輯,這就是爲什麼今天大多數生成視頻的時長限制在約 1 分鐘的原因。

對於大多數專業好萊塢製片廠來說,擴散模型生成的視頻可以用於前期製作中的故事板,以可視化場景或角色的樣子,但並不能取代現場拍攝。在後期製作中也有機會使用 AI 進行音頻和視覺效果處理,但總體而言,AI 創作者工具套件與已經經歷了數十年投資的傳統工作流程相比,仍然處於早期發展階段。

在短期內,生成視頻最大的機會之一在於發展新的媒體格式,如互動視頻和短片。互動視頻已經被分割成短的 1-2 分鐘片段,根據玩家的選擇,並且通常是動畫或風格化的,可以使用較低分辨率的素材。更重要的是,通過擴散模型創建這些短視頻的成本比 Telltale / Bandersnatch 時期更具性價比——Abel Art 估計來自 Luma 的 1 分鐘視頻成本爲 125 美元,相當於租用一天的電影鏡頭的費用。

儘管今天生成視頻的質量可能不一致,但像 ReelShort 和 DramaBox這樣的垂直短視頻的流行已經證明觀衆對低製作價值的劇集短片電視的需求。儘管評論家抱怨攝影業餘且劇本公式化,ReelShort 仍然推動了超過 3000 萬次下載和每月收入超過 1000 萬美元,推出了成千上萬部迷你係列,如《禁忌慾望:阿爾法的愛》。

互動視頻面臨的最大技術障礙是達到足夠快的幀生成速度,以便實時生成內容。Dream Machine 目前每秒生成約 1 幀。現代遊戲主機的最低可接受目標是穩定的 30 FPS,而 60 FPS 則是黃金標準。在 PAB 等技術的幫助下,這在某些視頻類型上可以提高到 10-20 FPS,但仍然速度不足。

現狀:互動視頻的格局

考慮到我們看到的基礎硬件和模型的改進速度,我們估計距離商業上可行的完全生成的互動視頻還有大約 2 年的距離。

今天,我們看到微軟研究和 OpenAI 等參與者在研究領域取得了進展,致力於互動視頻的端到端的基礎模型。微軟的模型旨在生成完全“可玩世界”的三維環境。OpenAI 展示了 Sora 的一個演示,該模型能夠進行“零樣本”的 Minecraft 模擬:“Sora 可以同時控制 Minecraft 中玩家的行動,高保真度地渲染世界及其動態。”

在 2024 年 2 月,Google DeepMind 發佈了其自己的端到端互動視頻基礎模型 Genie。Genie 的獨特之處在於其潛在動作模型,該模型推斷一對視頻幀之間的潛在動作。通過 30 萬小時的平臺視頻的訓練,Genie 學會了識別角色動作,例如如何越過障礙物。這個潛在動作模型與視頻分詞器相結合,輸入到動態模型中,該模型預測下一個幀,從而構建出一個互動視頻。

在應用層面,我們已經看到一些團隊在探索新型互動視頻體驗。許多公司正在致力於製作生成型電影或電視節目,圍繞當前模型的侷限性進行設計和開發。我們還看到一些團隊在 AI 原生遊戲引擎中加入視頻元素。

Ilumine 的 Latens 正在開發一個“清醒夢模擬器”,用戶在夢境中行走時實時生成畫面內容。這種輕微的延遲有助於營造超現實的體驗。開放源代碼社區 Deforum 的開發者正在創建沉浸式互動視頻的現實世界的裝置。Dynamic 正在開發一個模擬引擎,用戶可以以第一人稱視角控制機器人,使用完全生成的視頻。

在電視和電影領域,Fable Studio 正在開發 Showrunner,這是一個 AI 流媒體服務,允許粉絲改編自己版本的熱門節目。Fable 的概念驗證項目《南方公園 AI》去年夏天首播時獲得了 800 萬次觀看量。Solo Twin 和 Uncanny Harry 是兩個位於前沿的 AI 電影製作工作室。Alterverse 創建了一個受 D&D 啓發的互動視頻角色扮演遊戲,社區決定接下來會發生什麼。Late Night Labs 是一個新的頂級電影製作公司,將 AI 集成到創作過程中。Odyssey 正在開發一個由 4 個生成模型驅動的視覺敘事平臺。

隨着電影和遊戲之間的界限模糊,我們將會出現 AI 原生遊戲引擎和工具,爲創作者賦予更多控制權。 Series AI 開發了 Rho Engine,這是一個用於 AI 遊戲開發的端到端平臺,並利用其平臺與主要知識產權持有者共同開發原創作品。我們還看到 Rosebud AI、Astrocade 和 Videogame AI 推出的 AI 創作套件,讓新手編程或藝術的人能夠迅速入門製作互動體驗。

這些新的 AI 創作套件將爲講故事創造市場機會,使新一類公民創作者能夠利用提示工程、視覺草圖和語音識別將他們的想象力付諸實踐。

誰將打造互動版皮克斯?

皮克斯能夠利用計算機和 3D 圖形的基礎技術變革來創建一個標誌性的公司。如今,在生成 AI 領域也正在經歷類似的浪潮。然而,重要的是要記住,皮克斯的成功在很大程度上歸功於《玩具總動員》及由約翰·拉塞特領導的世界級故事團隊創作的經典動畫電影。人類創造力結合新技術,創造出了最優秀的故事。

同樣,我們相信下一個皮克斯將需要成爲一個世界級的互動故事工作室以及一家頂尖的科技公司。鑑於 AI 研究迅速發展,創意團隊需要與 AI 團隊密切合作,融合敘事和遊戲設計與技術創新。皮克斯擁有一個獨特的團隊,融合了藝術與技術,並與迪士尼建立了合作關係。今天的機會在於一個新團隊能夠將遊戲、電影和 AI 的學科融合在一起。

需要明確的是,這將是一個巨大的挑戰,而不僅僅受限於技術。這個團隊需要探索新的方式,讓人類講故事者與 AI 工具合作工作,以增強而非削弱他們的想象力。此外,還有許多法律和倫理障礙亟待解決——除非創作者能證明對用於訓練模型的所有數據的擁有權,否則 AI 生成的創意作品的法律所有權和版權保護依然不清晰。訓練數據背後原始作家、藝術家和製作人的補償問題也亟待解決。

然而,今天也很明確的是,對新互動體驗的需求非常旺盛。從長遠來看,下一個皮克斯不僅可以創造互動故事,還可以構建完整的虛擬世界。我們之前探討過無盡遊戲的潛力——動態世界融合實時關卡生成、個性化敘事和智能代理——類似於 HBO 的《西部世界》構想。互動視頻解決了將《西部世界》變爲現實的最大挑戰之一——快速生成大量個性化、高質量的互動內容。

有一天,藉助 AI 的幫助,我們可能會通過構建一個故事世界來開啓創作過程——一個我們設想完全形成的知識產權世界,包含角色、敘事線、視覺等——然後生成我們希望爲觀衆或特定情境提供的各種媒體產品。這將是跨媒體敘事的最終發展,完全模糊傳統媒體形式的界限。

皮克斯、迪士尼和漫威都能夠創造出難以忘懷的世界,這些世界成爲了粉絲身份的核心部分。下一個互動皮克斯的機會在於利用生成性 AI 達到相同的目標——創造新的故事世界,模糊傳統敘事格式的界限,從而創造出前所未見的世界。