据 Cointelegraph 报道,Meta 于 10 月 4 日推出了一套名为“Movie Gen”的全新人工智能模型,能够生成长达 16 秒的逼真电影,并配有音效和背景音乐。Movie Gen 虽然不是第一个根据文本提示生成视频和音频的多模态 AI 模型,但它似乎展示了最先进的功能。研究人员声称,它在人体测试中的表现优于竞争对手的系统。

Meta 的博客文章显示,Movie Gen 可以以每秒 16 帧 (FPS) 的帧速率输出电影。作为对比,传统的好莱坞电影以 24 FPS 拍摄以实现“电影效果”。尽管游戏和其他图形应用程序更喜欢更高的 FPS 速率,但 Meta 的 16 FPS 接近专业质量的电影图像。这些模型可以根据简单的文本提示生成全新的电影,或修改现有图像或视频以替换或更改对象和背景。

Movie Gen 最先进的功能之一是它能够生成长达 45 秒的音频,包括音效和背景音乐,这些音频与生成的视频中的动作集成并同步。尽管取得了这些进步,但 Meta 目前仍对 Movie Gen 背后的基础模型保密。该公司尚未提供该产品的发布时间表,并表示在部署之前需要进行进一步的安全测试。

Meta 人工智能团队的一份研究论文指出,Movie Gen 模型是为了研究目的而开发的,在部署之前需要进行多次改进。该公司计划加入安全模型,以拒绝违反其政策的输入提示或生成,以防止滥用。