a16z：新时代的“皮克斯”，AI 将如何融合电影与游戏？

链捕手ChainCatcher · 2024-08-30T09:55:59.000Z

原标题：《The Next Generation Pixar: How AI will Merge Film & Games》作者：Jonathan Lai 编译：深潮TechFlow 在过去的一个世纪中,技术变革催生了许多我们最喜爱的故事。以1930年代为例,迪士尼发明了多平面摄影机，并首次制作了声音同步的全彩动画。这项技术突破促成了开创性动画电影《白雪公主和七个小矮人》的诞生。" 在 1940 年代，漫威和 DC 漫画崛起，被誉为“漫画的黄金时代”，这得益于四色旋转印刷机和胶印技术的广泛应用，使漫画得以大规模印刷。该技术的局限性——低分辨率、有限的色调范围、在廉价新闻纸上的点阵印刷——形成了我们今天仍能识别的标志性“纸浆”外观。同样，皮克斯在 1980 年代也处于独特的地位，可以利用新技术平台——计算机和 3D 图形。联合创始人埃德温·卡特穆尔 (Edwin Catmull) 是 NYIT 计算机图形实验室和卢卡斯影业的早期研究人员，开辟了基础 CGI 概念，后来推出了第一部完全由计算机生成的动画长片《玩具总动员》。皮克斯的图形渲染套件 Renderman 至今已应用于超过 500 部电影。在每一波技术浪潮中，最初作为新奇事物的早期原型逐步演变为深度叙事的新格式，由一代又一代的新创作者引领。今天，我们相信下一个皮克斯即将诞生。生成式人工智能 (Generative AI) 正在推动创意叙事的根本性转变，使新一代人类创作者能够以全新的方式讲述故事。具体而言，我们认为下个世纪的皮克斯不会通过传统的电影或动画诞生，而是通过互动视频。这种新的叙事格式将会模糊视频游戏与电视/电影之间的界限——将深度叙事与观众的主动性和“游戏”融合，开启一个巨大的新市场。游戏：现代叙事的前沿今天有两个主要浪潮正在涌现，这可能加速新一代叙事公司的形成：消费者向互动媒体（而不是线性/被动媒体，即电视/电影）的转变由生成式人工智能驱动的技术进步在过去的 30 年中，我们看到消费者的转变持续加深，游戏和互动媒体在每一代人中变得越来越受欢迎。对于 Z 世代及更年轻一代，游戏现在是他们花费闲暇时间的首选，胜过了电视和电影。2019 年，Netflix 首席执行官里德·哈斯廷斯曾在一封给股东的信中表示：“我们与 Fortnite 的竞争（并且常常输给它）超过了 HBO。”对于大多数家庭来说，问题是“我们在玩什么”而非“我们在看什么”。尽管电视、电影和书籍仍然讲述引人入胜的故事，但许多最具创新性和成功的新故事如今正是在游戏中讲述的。比如《哈利·波特》。开放世界角色扮演游戏《霍格沃茨的遗产》让玩家体验成为霍格沃茨新生的沉浸感，前所未有。这款游戏是 2023 年的畅销作品，上市时收入超过 10 亿美元，票房超越了除最后一部《哈利·波特：死亡圣器（下）》外的所有《哈利·波特》电影（10.3 亿美元）。游戏知识产权（IP）最近在电视和电影改编中也取得了巨大成功。顽皮狗的《最后的生还者》在 2023 年成为 HBO Max 收视率最高的剧集，每集平均有 3200 万观众。《超级马里奥兄弟》电影以 14 亿美元的票房创造了动画电影全球首个周末的最大开局。此外，还有备受好评的《辐射》剧集、派拉蒙的《光环》剧集、汤姆·霍兰德的《古墓丽影》电影、迈克尔·贝的《Skibidi Toilet》电影——还有很多。互动媒体如此强大的一个关键原因是，积极参与有助于建立对故事或宇宙的亲密感。玩游戏一小时的注意力远胜于被动看电视一小时。许多游戏也具有社交性，核心设计中融入了多人机制。最令人难忘的故事往往是我们与亲友共同创作和分享的。观众在多个媒介（观看、游戏、创作、分享）中与知识产权持续互动,这使得故事不仅仅成为娱乐，还成为个人身份的一部分。神奇的转变发生在一个人从单纯的"《哈利·波特》观众"成长为"忠实的波特迷"时，后者更具持久性，围绕曾是单人活动的内容建立身份和多人社区。总的来说，尽管我们历史上最伟大的故事是在线性媒体中讲述的，但展望未来，游戏和互动媒体将成为未来故事的讲述之地——因此我们相信下一个世纪最重要的叙事公司将会在这里诞生。互动视频：叙事与游戏的结合鉴于游戏在文化中的主导地位，我们相信下一个皮克斯将通过一种将叙事与游戏结合的媒体格式出现。我们看到的一种潜力巨大的格式是互动视频。首先，什么是互动视频，它与视频游戏有什么不同？在视频游戏中，开发者将一组资源预先加载到游戏引擎中。例如，在《超级马里奥兄弟》中，艺术家设计了马里奥角色、树木和背景。程序员设定马里奥在玩家按下“A”按钮后跳跃 50 像素。跳跃帧利用传统的图形管线渲染。这导致游戏架构高度确定性和计算性，开发者完全控制。而互动视频则是完全依赖神经网络实时生成帧。除了创意提示（可以是文本或代表性图像）外，不需要上传或创建任何资源。实时 AI 图像模型接收玩家输入（例如“上”按钮），并概率性地推测下一个生成的游戏帧。互动视频的前景在于将电视和电影的可及性与叙事深度融合，同时结合视频游戏的动态、玩家驱动的系统。每个人都知道如何观看电视并跟随线性故事。通过增加基于玩家输入实时生成的视频，我们可以创造个性化和无限的游戏体验——这可能使媒体作品能够吸引粉丝数千小时。暴雪的《魔兽世界》已经超过 20 年，今天仍然保留着约 700 万的订阅用户。互动视频还提供多种消费方式——观众可以像观看电视节目一样轻松享受内容，也可以在其他时候主动在移动设备或手柄上进行游戏。让粉丝以尽可能多的方式体验他们最喜欢的知识产权宇宙是跨媒体叙事的核心，这有助于增强对知识产权的亲密感。在过去十年中，许多叙事者尝试实现互动视频的愿景。一个早期的突破是 Telltale 的《行尸走肉》——这是一个基于罗伯特·柯克曼的漫画系列的互动体验，玩家观看动画场景的展开，但在关键时刻通过对话和快速反应事件做出选择。这些选择——例如决定在僵尸袭击中拯救哪个角色——创造了个性化的故事变体，使每次游戏体验都与众不同。《行尸走肉》于 2012 年推出，取得了巨大的成功——获得了多个年度游戏奖，并至今销量超过 2800 万份。 2017 年，Netflix 也进入互动视频领域——从动画作品《猫咪书籍》开始，最终发布了备受好评的《黑镜：潘达斯奈奇》，这是一部真人电影，观众为一位年轻程序员在改编幻想书籍为视频游戏的过程中做出选择。潘达斯奈奇成为假日现象，吸引了一批狂热粉丝，他们制作流程图以记录电影的每一个可能结局。然而，尽管获得了积极评价，潘达斯奈奇和《行尸走肉》都面临着生存危机——手动创建定义该格式的无数分支故事的时间和成本都过于昂贵。随着 Telltale 扩展到多个项目，他们在开发者中建立了加班文化，开发者抱怨“疲劳和被烧尽”。叙事质量受到影响——虽然《行尸走肉》起初的 Metacritic 评分是 89，但四年后 Telltale 发布他们最大的 IP 之一《蝙蝠侠》时却只获得了不尽如人意的 64 分。2018 年，Telltale 宣布破产，未能建立可持续的商业模式。对于《潘达斯奈奇》，剧组拍摄了 250 个视频片段，包括 5 个多小时的镜头，以解释电影的 5 个结局。预算和制作时间据报道是标准《黑镜》剧集的两倍，节目制作人表示项目的复杂性相当于“同时制作 4 集”。最终在 2024 年，Netflix 决定关闭整个互动特别节目部门——转而制作传统游戏。直到现在，互动视频项目的内容成本与游戏时间呈线性关系——没有办法绕过这个问题。然而，生成式人工智能模型的进步可能是推动互动视频规模化的关键。生成模型将很快足够快以支持互动视频最近在图像生成模型蒸馏方面的进展令人惊叹。在 2023 年，潜在一致性模型和 SDXL Turbo 的发布显著提升了图像生成的速度和效率，使得高分辨率渲染只需一步，而以前需要 20-30 步，成本也降低了超过 30 倍。生成视频的想法——一系列具有帧间变化的一致图像——突然变得极具可行性。今年早些时候，OpenAI 引起了广泛关注，宣布推出 Sora，这是一个文本到视频模型，可以生成最长 1 分钟的视频，同时确保视觉一致性。没过多久，Luma AI 发布了速度更快的视频模型 Dream Machine，能够在 120 秒内生成 120 帧（约 5 秒的视频）。Luma 最近分享他们在短短 7 周内吸引了惊人的 1000 万用户。上个月，Hedra Labs 发布了 Character-1，这是一个以角色为重点的多模态视频模型，可以在 90 秒内生成 60 秒的视频，展现表现丰富的人类情感和配音。而 Runway 最近推出了 Gen-3 Turbo，一个可以在仅 15 秒内渲染出 10 秒片段的模型。今天，一位有抱负的电影制作人可以快速从文本提示或参考图像生成几分钟的 720p 高清视频内容，并可以与起始或结束关键帧配对以增加具体性。Runway 还开发了一套编辑工具，提供对扩散生成的视频进行更精细控制，包括帧内摄像机控制、帧插值和运动画笔。Luma 和 Hedra 也将在不久后推出各自的创作者工具套件。尽管制作工作流程仍处于早期阶段，但我们已经遇到了几位内容创作者，他们正在使用这些工具讲述故事。Resemblance AI 创建了 Nexus 1945，这是一个引人注目的 3 分钟的二战替代历史故事，由 Luma、Midjourney 和 Eleven Labs 制作。独立电影制作人 Uncanny Harry 与 Hedra 一起创作了一部赛博朋克短片，创作者们还制作了音乐视频、预告片、旅行视频博客，甚至快餐汉堡广告。自 2022 年以来， Runway 每年都会举办人工智能电影节，评选出 10 部优秀的 AI 制作短片。需要特别指出的是，当前仍存在一些局限性——由提示生成的 2 分钟片段与由专业团队制作的 2 小时长片之间在叙事质量和控制方面仍存在明显差距。根据提示或图像生成创作者所想要的内容往往很困难，即使是经验丰富的提示工程师通常也会放弃大部分生成的内容。AI 创作者 Abel Art 报告称，生成 1 分钟连贯视频需要约 500 个视频。图像一致性通常在连续视频播放一两分钟后开始失效，并且通常需要手动编辑，这就是为什么今天大多数生成视频的时长限制在约 1 分钟的原因。对于大多数专业好莱坞制片厂来说，扩散模型生成的视频可以用于前期制作中的故事板，以可视化场景或角色的样子，但并不能取代现场拍摄。在后期制作中也有机会使用 AI 进行音频和视觉效果处理，但总体而言，AI 创作者工具套件与已经经历了数十年投资的传统工作流程相比，仍然处于早期发展阶段。在短期内，生成视频最大的机会之一在于发展新的媒体格式，如互动视频和短片。互动视频已经被分割成短的 1-2 分钟片段，根据玩家的选择，并且通常是动画或风格化的，可以使用较低分辨率的素材。更重要的是，通过扩散模型创建这些短视频的成本比 Telltale / Bandersnatch 时期更具性价比——Abel Art 估计来自 Luma 的 1 分钟视频成本为 125 美元，相当于租用一天的电影镜头的费用。尽管今天生成视频的质量可能不一致，但像 ReelShort 和 DramaBox这样的垂直短视频的流行已经证明观众对低制作价值的剧集短片电视的需求。尽管评论家抱怨摄影业余且剧本公式化，ReelShort 仍然推动了超过 3000 万次下载和每月收入超过 1000 万美元，推出了成千上万部迷你系列，如《禁忌欲望：阿尔法的爱》。互动视频面临的最大技术障碍是达到足够快的帧生成速度，以便实时生成内容。Dream Machine 目前每秒生成约 1 帧。现代游戏主机的最低可接受目标是稳定的 30 FPS，而 60 FPS 则是黄金标准。在 PAB 等技术的帮助下，这在某些视频类型上可以提高到 10-20 FPS，但仍然速度不足。现状：互动视频的格局考虑到我们看到的基础硬件和模型的改进速度，我们估计距离商业上可行的完全生成的互动视频还有大约 2 年的距离。今天，我们看到微软研究和 OpenAI 等参与者在研究领域取得了进展，致力于互动视频的端到端的基础模型。微软的模型旨在生成完全“可玩世界”的三维环境。OpenAI 展示了 Sora 的一个演示，该模型能够进行“零样本”的 Minecraft 模拟：“Sora 可以同时控制 Minecraft 中玩家的行动，高保真度地渲染世界及其动态。” 在 2024 年 2 月，Google DeepMind 发布了其自己的端到端互动视频基础模型 Genie。Genie 的独特之处在于其潜在动作模型，该模型推断一对视频帧之间的潜在动作。通过 30 万小时的平台视频的训练，Genie 学会了识别角色动作，例如如何越过障碍物。这个潜在动作模型与视频分词器相结合，输入到动态模型中，该模型预测下一个帧，从而构建出一个互动视频。在应用层面，我们已经看到一些团队在探索新型互动视频体验。许多公司正在致力于制作生成型电影或电视节目，围绕当前模型的局限性进行设计和开发。我们还看到一些团队在 AI 原生游戏引擎中加入视频元素。 Ilumine 的 Latens 正在开发一个“清醒梦模拟器”，用户在梦境中行走时实时生成画面内容。这种轻微的延迟有助于营造超现实的体验。开放源代码社区 Deforum 的开发者正在创建沉浸式互动视频的现实世界的装置。Dynamic 正在开发一个模拟引擎，用户可以以第一人称视角控制机器人，使用完全生成的视频。在电视和电影领域，Fable Studio 正在开发 Showrunner，这是一个 AI 流媒体服务，允许粉丝改编自己版本的热门节目。Fable 的概念验证项目《南方公园 AI》去年夏天首播时获得了 800 万次观看量。Solo Twin 和 Uncanny Harry 是两个位于前沿的 AI 电影制作工作室。Alterverse 创建了一个受 D&D 启发的互动视频角色扮演游戏，社区决定接下来会发生什么。Late Night Labs 是一个新的顶级电影制作公司，将 AI 集成到创作过程中。Odyssey 正在开发一个由 4 个生成模型驱动的视觉叙事平台。随着电影和游戏之间的界限模糊，我们将会出现 AI 原生游戏引擎和工具，为创作者赋予更多控制权。 Series AI 开发了 Rho Engine，这是一个用于 AI 游戏开发的端到端平台，并利用其平台与主要知识产权持有者共同开发原创作品。我们还看到 Rosebud AI、Astrocade 和 Videogame AI 推出的 AI 创作套件，让新手编程或艺术的人能够迅速入门制作互动体验。这些新的 AI 创作套件将为讲故事创造市场机会，使新一类公民创作者能够利用提示工程、视觉草图和语音识别将他们的想象力付诸实践。谁将打造互动版皮克斯？皮克斯能够利用计算机和 3D 图形的基础技术变革来创建一个标志性的公司。如今，在生成 AI 领域也正在经历类似的浪潮。然而，重要的是要记住，皮克斯的成功在很大程度上归功于《玩具总动员》及由约翰·拉塞特领导的世界级故事团队创作的经典动画电影。人类创造力结合新技术，创造出了最优秀的故事。同样，我们相信下一个皮克斯将需要成为一个世界级的互动故事工作室以及一家顶尖的科技公司。鉴于 AI 研究迅速发展，创意团队需要与 AI 团队密切合作，融合叙事和游戏设计与技术创新。皮克斯拥有一个独特的团队，融合了艺术与技术，并与迪士尼建立了合作关系。今天的机会在于一个新团队能够将游戏、电影和 AI 的学科融合在一起。需要明确的是，这将是一个巨大的挑战，而不仅仅受限于技术。这个团队需要探索新的方式，让人类讲故事者与 AI 工具合作工作，以增强而非削弱他们的想象力。此外，还有许多法律和伦理障碍亟待解决——除非创作者能证明对用于训练模型的所有数据的拥有权，否则 AI 生成的创意作品的法律所有权和版权保护依然不清晰。训练数据背后原始作家、艺术家和制作人的补偿问题也亟待解决。然而，今天也很明确的是，对新互动体验的需求非常旺盛。从长远来看，下一个皮克斯不仅可以创造互动故事，还可以构建完整的虚拟世界。我们之前探讨过无尽游戏的潜力——动态世界融合实时关卡生成、个性化叙事和智能代理——类似于 HBO 的《西部世界》构想。互动视频解决了将《西部世界》变为现实的最大挑战之一——快速生成大量个性化、高质量的互动内容。有一天，借助 AI 的帮助，我们可能会通过构建一个故事世界来开启创作过程——一个我们设想完全形成的知识产权世界，包含角色、叙事线、视觉等——然后生成我们希望为观众或特定情境提供的各种媒体产品。这将是跨媒体叙事的最终发展，完全模糊传统媒体形式的界限。皮克斯、迪士尼和漫威都能够创造出难以忘怀的世界，这些世界成为了粉丝身份的核心部分。下一个互动皮克斯的机会在于利用生成性 AI 达到相同的目标——创造新的故事世界，模糊传统叙事格式的界限，从而创造出前所未见的世界。

原標題：《The Next Generation Pixar: How AI will Merge Film & Games》
作者：Jonathan Lai
編譯：深潮TechFlow
 
在過去的一個世紀中,技術變革催生了許多我們最喜愛的故事。以1930年代爲例,迪士尼發明了多平面攝影機，並首次製作了聲音同步的全綵動畫。這項技術突破促成了開創性動畫電影《白雪公主和七個小矮人》的誕生。"
在 1940 年代，漫威和 DC 漫畫崛起，被譽爲“漫畫的黃金時代”，這得益於四色旋轉印刷機和膠印技術的廣泛應用，使漫畫得以大規模印刷。該技術的侷限性——低分辨率、有限的色調範圍、在廉價新聞紙上的點陣印刷——形成了我們今天仍能識別的標誌性“紙漿”外觀。
同樣，皮克斯在 1980 年代也處於獨特的地位，可以利用新技術平臺——計算機和 3D 圖形。聯合創始人埃德溫·卡特穆爾 (Edwin Catmull) 是 NYIT 計算機圖形實驗室和盧卡斯影業的早期研究人員，開闢了基礎 CGI 概念，後來推出了第一部完全由計算機生成的動畫長片《玩具總動員》。皮克斯的圖形渲染套件 Renderman 至今已應用於超過 500 部電影。
在每一波技術浪潮中，最初作爲新奇事物的早期原型逐步演變爲深度敘事的新格式，由一代又一代的新創作者引領。今天，我們相信下一個皮克斯即將誕生。生成式人工智能 (Generative AI) 正在推動創意敘事的根本性轉變，使新一代人類創作者能夠以全新的方式講述故事。
具體而言，我們認爲下個世紀的皮克斯不會通過傳統的電影或動畫誕生，而是通過互動視頻。這種新的敘事格式將會模糊視頻遊戲與電視/電影之間的界限——將深度敘事與觀衆的主動性和“遊戲”融合，開啓一個巨大的新市場。
遊戲：現代敘事的前沿
今天有兩個主要浪潮正在涌現，這可能加速新一代敘事公司的形成：
消費者向互動媒體（而不是線性/被動媒體，即電視/電影）的轉變
由生成式人工智能驅動的技術進步
在過去的 30 年中，我們看到消費者的轉變持續加深，遊戲和互動媒體在每一代人中變得越來越受歡迎。對於 Z 世代及更年輕一代，遊戲現在是他們花費閒暇時間的首選，勝過了電視和電影。2019 年，Netflix 首席執行官裏德·哈斯廷斯曾在一封給股東的信中表示：“我們與 Fortnite 的競爭（並且常常輸給它）超過了 HBO。”對於大多數家庭來說，問題是“我們在玩什麼”而非“我們在看什麼”。
儘管電視、電影和書籍仍然講述引人入勝的故事，但許多最具創新性和成功的新故事如今正是在遊戲中講述的。比如《哈利·波特》。開放世界角色扮演遊戲《霍格沃茨的遺產》讓玩家體驗成爲霍格沃茨新生的沉浸感，前所未有。這款遊戲是 2023 年的暢銷作品，上市時收入超過 10 億美元，票房超越了除最後一部《哈利·波特：死亡聖器（下）》外的所有《哈利·波特》電影（10.3 億美元）。
遊戲知識產權（IP）最近在電視和電影改編中也取得了巨大成功。頑皮狗的《最後的生還者》在 2023 年成爲 HBO Max 收視率最高的劇集，每集平均有 3200 萬觀衆。《超級馬里奧兄弟》電影以 14 億美元的票房創造了動畫電影全球首個週末的最大開局。此外，還有備受好評的《輻射》劇集、派拉蒙的《光環》劇集、湯姆·霍蘭德的《古墓麗影》電影、邁克爾·貝的《Skibidi Toilet》電影——還有很多。
互動媒體如此強大的一個關鍵原因是，積極參與有助於建立對故事或宇宙的親密感。玩遊戲一小時的注意力遠勝於被動看電視一小時。許多遊戲也具有社交性，核心設計中融入了多人機制。最令人難忘的故事往往是我們與親友共同創作和分享的。
觀衆在多個媒介（觀看、遊戲、創作、分享）中與知識產權持續互動,這使得故事不僅僅成爲娛樂，還成爲個人身份的一部分。神奇的轉變發生在一個人從單純的"《哈利·波特》觀衆"成長爲"忠實的波特迷"時，後者更具持久性，圍繞曾是單人活動的內容建立身份和多人社區。
總的來說，儘管我們歷史上最偉大的故事是在線性媒體中講述的，但展望未來，遊戲和互動媒體將成爲未來故事的講述之地——因此我們相信下一個世紀最重要的敘事公司將會在這裏誕生。
互動視頻：敘事與遊戲的結合
鑑於遊戲在文化中的主導地位，我們相信下一個皮克斯將通過一種將敘事與遊戲結合的媒體格式出現。我們看到的一種潛力巨大的格式是互動視頻。
首先，什麼是互動視頻，它與視頻遊戲有什麼不同？在視頻遊戲中，開發者將一組資源預先加載到遊戲引擎中。例如，在《超級馬里奧兄弟》中，藝術家設計了馬里奧角色、樹木和背景。程序員設定馬里奧在玩家按下“A”按鈕後跳躍 50 像素。跳躍幀利用傳統的圖形管線渲染。這導致遊戲架構高度確定性和計算性，開發者完全控制。
而互動視頻則是完全依賴神經網絡實時生成幀。除了創意提示（可以是文本或代表性圖像）外，不需要上傳或創建任何資源。實時 AI 圖像模型接收玩家輸入（例如“上”按鈕），並概率性地推測下一個生成的遊戲幀。
互動視頻的前景在於將電視和電影的可及性與敘事深度融合，同時結合視頻遊戲的動態、玩家驅動的系統。每個人都知道如何觀看電視並跟隨線性故事。通過增加基於玩家輸入實時生成的視頻，我們可以創造個性化和無限的遊戲體驗——這可能使媒體作品能夠吸引粉絲數千小時。暴雪的《魔獸世界》已經超過 20 年，今天仍然保留着約 700 萬的訂閱用戶。
互動視頻還提供多種消費方式——觀衆可以像觀看電視節目一樣輕鬆享受內容，也可以在其他時候主動在移動設備或手柄上進行遊戲。讓粉絲以儘可能多的方式體驗他們最喜歡的知識產權宇宙是跨媒體敘事的核心，這有助於增強對知識產權的親密感。
在過去十年中，許多敘事者嘗試實現互動視頻的願景。一個早期的突破是 Telltale 的《行屍走肉》——這是一個基於羅伯特·柯克曼的漫畫系列的互動體驗，玩家觀看動畫場景的展開，但在關鍵時刻通過對話和快速反應事件做出選擇。這些選擇——例如決定在殭屍襲擊中拯救哪個角色——創造了個性化的故事變體，使每次遊戲體驗都與衆不同。《行屍走肉》於 2012 年推出，取得了巨大的成功——獲得了多個年度遊戲獎，並至今銷量超過 2800 萬份。
2017 年，Netflix 也進入互動視頻領域——從動畫作品《貓咪書籍》開始，最終發佈了備受好評的《黑鏡：潘達斯奈奇》，這是一部真人電影，觀衆爲一位年輕程序員在改編幻想書籍爲視頻遊戲的過程中做出選擇。潘達斯奈奇成爲假日現象，吸引了一批狂熱粉絲，他們製作流程圖以記錄電影的每一個可能結局。
然而，儘管獲得了積極評價，潘達斯奈奇和《行屍走肉》都面臨着生存危機——手動創建定義該格式的無數分支故事的時間和成本都過於昂貴。隨着 Telltale 擴展到多個項目，他們在開發者中建立了加班文化，開發者抱怨“疲勞和被燒盡”。敘事質量受到影響——雖然《行屍走肉》起初的 Metacritic 評分是 89，但四年後 Telltale 發佈他們最大的 IP 之一《蝙蝠俠》時卻只獲得了不盡如人意的 64 分。2018 年，Telltale 宣佈破產，未能建立可持續的商業模式。
對於《潘達斯奈奇》，劇組拍攝了 250 個視頻片段，包括 5 個多小時的鏡頭，以解釋電影的 5 個結局。預算和製作時間據報道是標準《黑鏡》劇集的兩倍，節目製作人表示項目的複雜性相當於“同時製作 4 集”。最終在 2024 年，Netflix 決定關閉整個互動特別節目部門——轉而製作傳統遊戲。
直到現在，互動視頻項目的內容成本與遊戲時間呈線性關係——沒有辦法繞過這個問題。然而，生成式人工智能模型的進步可能是推動互動視頻規模化的關鍵。
生成模型將很快足夠快以支持互動視頻
最近在圖像生成模型蒸餾方面的進展令人驚歎。在 2023 年，潛在一致性模型和 SDXL Turbo 的發佈顯著提升了圖像生成的速度和效率，使得高分辨率渲染只需一步，而以前需要 20-30 步，成本也降低了超過 30 倍。生成視頻的想法——一系列具有幀間變化的一致圖像——突然變得極具可行性。
今年早些時候，OpenAI 引起了廣泛關注，宣佈推出 Sora，這是一個文本到視頻模型，可以生成最長 1 分鐘的視頻，同時確保視覺一致性。沒過多久，Luma AI 發佈了速度更快的視頻模型 Dream Machine，能夠在 120 秒內生成 120 幀（約 5 秒的視頻）。Luma 最近分享他們在短短 7 周內吸引了驚人的 1000 萬用戶。上個月，Hedra Labs 發佈了 Character-1，這是一個以角色爲重點的多模態視頻模型，可以在 90 秒內生成 60 秒的視頻，展現表現豐富的人類情感和配音。而 Runway 最近推出了 Gen-3 Turbo，一個可以在僅 15 秒內渲染出 10 秒片段的模型。
今天，一位有抱負的電影製作人可以快速從文本提示或參考圖像生成幾分鐘的 720p 高清視頻內容，並可以與起始或結束關鍵幀配對以增加具體性。Runway 還開發了一套編輯工具，提供對擴散生成的視頻進行更精細控制，包括幀內攝像機控制、幀插值和運動畫筆。Luma 和 Hedra 也將在不久後推出各自的創作者工具套件。
儘管製作工作流程仍處於早期階段，但我們已經遇到了幾位內容創作者，他們正在使用這些工具講述故事。Resemblance AI 創建了 Nexus 1945，這是一個引人注目的 3 分鐘的二戰替代歷史故事，由 Luma、Midjourney 和 Eleven Labs 製作。獨立電影製作人 Uncanny Harry 與 Hedra 一起創作了一部賽博朋克短片，創作者們還製作了音樂視頻、預告片、旅行視頻博客，甚至快餐漢堡廣告。自 2022 年以來， Runway 每年都會舉辦人工智能電影節，評選出 10 部優秀的 AI 製作短片。
需要特別指出的是，當前仍存在一些侷限性——由提示生成的 2 分鐘片段與由專業團隊製作的 2 小時長片之間在敘事質量和控制方面仍存在明顯差距。根據提示或圖像生成創作者所想要的內容往往很困難，即使是經驗豐富的提示工程師通常也會放棄大部分生成的內容。AI 創作者 Abel Art 報告稱，生成 1 分鐘連貫視頻需要約 500 個視頻。圖像一致性通常在連續視頻播放一兩分鐘後開始失效，並且通常需要手動編輯，這就是爲什麼今天大多數生成視頻的時長限制在約 1 分鐘的原因。
對於大多數專業好萊塢製片廠來說，擴散模型生成的視頻可以用於前期製作中的故事板，以可視化場景或角色的樣子，但並不能取代現場拍攝。在後期製作中也有機會使用 AI 進行音頻和視覺效果處理，但總體而言，AI 創作者工具套件與已經經歷了數十年投資的傳統工作流程相比，仍然處於早期發展階段。
在短期內，生成視頻最大的機會之一在於發展新的媒體格式，如互動視頻和短片。互動視頻已經被分割成短的 1-2 分鐘片段，根據玩家的選擇，並且通常是動畫或風格化的，可以使用較低分辨率的素材。更重要的是，通過擴散模型創建這些短視頻的成本比 Telltale / Bandersnatch 時期更具性價比——Abel Art 估計來自 Luma 的 1 分鐘視頻成本爲 125 美元，相當於租用一天的電影鏡頭的費用。
儘管今天生成視頻的質量可能不一致，但像 ReelShort 和 DramaBox這樣的垂直短視頻的流行已經證明觀衆對低製作價值的劇集短片電視的需求。儘管評論家抱怨攝影業餘且劇本公式化，ReelShort 仍然推動了超過 3000 萬次下載和每月收入超過 1000 萬美元，推出了成千上萬部迷你係列，如《禁忌慾望：阿爾法的愛》。
互動視頻面臨的最大技術障礙是達到足夠快的幀生成速度，以便實時生成內容。Dream Machine 目前每秒生成約 1 幀。現代遊戲主機的最低可接受目標是穩定的 30 FPS，而 60 FPS 則是黃金標準。在 PAB 等技術的幫助下，這在某些視頻類型上可以提高到 10-20 FPS，但仍然速度不足。
現狀：互動視頻的格局
考慮到我們看到的基礎硬件和模型的改進速度，我們估計距離商業上可行的完全生成的互動視頻還有大約 2 年的距離。
今天，我們看到微軟研究和 OpenAI 等參與者在研究領域取得了進展，致力於互動視頻的端到端的基礎模型。微軟的模型旨在生成完全“可玩世界”的三維環境。OpenAI 展示了 Sora 的一個演示，該模型能夠進行“零樣本”的 Minecraft 模擬：“Sora 可以同時控制 Minecraft 中玩家的行動，高保真度地渲染世界及其動態。”
在 2024 年 2 月，Google DeepMind 發佈了其自己的端到端互動視頻基礎模型 Genie。Genie 的獨特之處在於其潛在動作模型，該模型推斷一對視頻幀之間的潛在動作。通過 30 萬小時的平臺視頻的訓練，Genie 學會了識別角色動作，例如如何越過障礙物。這個潛在動作模型與視頻分詞器相結合，輸入到動態模型中，該模型預測下一個幀，從而構建出一個互動視頻。
在應用層面，我們已經看到一些團隊在探索新型互動視頻體驗。許多公司正在致力於製作生成型電影或電視節目，圍繞當前模型的侷限性進行設計和開發。我們還看到一些團隊在 AI 原生遊戲引擎中加入視頻元素。
Ilumine 的 Latens 正在開發一個“清醒夢模擬器”，用戶在夢境中行走時實時生成畫面內容。這種輕微的延遲有助於營造超現實的體驗。開放源代碼社區 Deforum 的開發者正在創建沉浸式互動視頻的現實世界的裝置。Dynamic 正在開發一個模擬引擎，用戶可以以第一人稱視角控制機器人，使用完全生成的視頻。
在電視和電影領域，Fable Studio 正在開發 Showrunner，這是一個 AI 流媒體服務，允許粉絲改編自己版本的熱門節目。Fable 的概念驗證項目《南方公園 AI》去年夏天首播時獲得了 800 萬次觀看量。Solo Twin 和 Uncanny Harry 是兩個位於前沿的 AI 電影製作工作室。Alterverse 創建了一個受 D&D 啓發的互動視頻角色扮演遊戲，社區決定接下來會發生什麼。Late Night Labs 是一個新的頂級電影製作公司，將 AI 集成到創作過程中。Odyssey 正在開發一個由 4 個生成模型驅動的視覺敘事平臺。
隨着電影和遊戲之間的界限模糊，我們將會出現 AI 原生遊戲引擎和工具，爲創作者賦予更多控制權。 Series AI 開發了 Rho Engine，這是一個用於 AI 遊戲開發的端到端平臺，並利用其平臺與主要知識產權持有者共同開發原創作品。我們還看到 Rosebud AI、Astrocade 和 Videogame AI 推出的 AI 創作套件，讓新手編程或藝術的人能夠迅速入門製作互動體驗。
這些新的 AI 創作套件將爲講故事創造市場機會，使新一類公民創作者能夠利用提示工程、視覺草圖和語音識別將他們的想象力付諸實踐。
誰將打造互動版皮克斯？
皮克斯能夠利用計算機和 3D 圖形的基礎技術變革來創建一個標誌性的公司。如今，在生成 AI 領域也正在經歷類似的浪潮。然而，重要的是要記住，皮克斯的成功在很大程度上歸功於《玩具總動員》及由約翰·拉塞特領導的世界級故事團隊創作的經典動畫電影。人類創造力結合新技術，創造出了最優秀的故事。
同樣，我們相信下一個皮克斯將需要成爲一個世界級的互動故事工作室以及一家頂尖的科技公司。鑑於 AI 研究迅速發展，創意團隊需要與 AI 團隊密切合作，融合敘事和遊戲設計與技術創新。皮克斯擁有一個獨特的團隊，融合了藝術與技術，並與迪士尼建立了合作關係。今天的機會在於一個新團隊能夠將遊戲、電影和 AI 的學科融合在一起。
需要明確的是，這將是一個巨大的挑戰，而不僅僅受限於技術。這個團隊需要探索新的方式，讓人類講故事者與 AI 工具合作工作，以增強而非削弱他們的想象力。此外，還有許多法律和倫理障礙亟待解決——除非創作者能證明對用於訓練模型的所有數據的擁有權，否則 AI 生成的創意作品的法律所有權和版權保護依然不清晰。訓練數據背後原始作家、藝術家和製作人的補償問題也亟待解決。
然而，今天也很明確的是，對新互動體驗的需求非常旺盛。從長遠來看，下一個皮克斯不僅可以創造互動故事，還可以構建完整的虛擬世界。我們之前探討過無盡遊戲的潛力——動態世界融合實時關卡生成、個性化敘事和智能代理——類似於 HBO 的《西部世界》構想。互動視頻解決了將《西部世界》變爲現實的最大挑戰之一——快速生成大量個性化、高質量的互動內容。
有一天，藉助 AI 的幫助，我們可能會通過構建一個故事世界來開啓創作過程——一個我們設想完全形成的知識產權世界，包含角色、敘事線、視覺等——然後生成我們希望爲觀衆或特定情境提供的各種媒體產品。這將是跨媒體敘事的最終發展，完全模糊傳統媒體形式的界限。
皮克斯、迪士尼和漫威都能夠創造出難以忘懷的世界，這些世界成爲了粉絲身份的核心部分。下一個互動皮克斯的機會在於利用生成性 AI 達到相同的目標——創造新的故事世界，模糊傳統敘事格式的界限，從而創造出前所未見的世界。

創作者的更多內容

實時新聞

創作者的更多內容

實時新聞

熱門文章