Google DeepMind 开发出为 AI 视频制作声音的 V2A

谷歌人工智能研究实验室 DeepMind 透露，它正在开发一种名为 V2A 的人工智能工具，它可以为人工智能生成的视频创建声音和对话。V2A 代表视频转音频，它使用基于文本的提示和视频像素为视频生成对话、音乐和音效。
另请阅读：Google DeepMind 推出 TacticAI：彻底改变足球战术
据 DeepMind 介绍，生成的音效和音乐与视频的预期基调和特征相匹配。DeepMind 进一步解释说，该技术可以帮助为 AI 生成的视频增添更多生命力。
V2A 将音讯与视讯场景相匹配
虽然音讯生成技术并不是什么新鲜事，但 DeepMind 声称其 V2A 工具是同类中的第一个，可以自动将音讯与视讯进行配对。
DeepMind 在部落格文章中写道：“视频生成模型正在以令人难以置信的速度前进，但许多当前系统只能生成无声输出。”
「透过对视讯、音讯和附加注释进行训练，我们的技术学会将特定的音讯事件与各种视觉场景相关联，同时响应注释或文字记录中提供的资讯。”
深心。
该公司补充说，其技术是自动的，而不是需要调整声音、视讯和时间的耗时的手动对齐。
据 DeepMind 称，V2A 工具可用于为任何视讯输出产生无限数量的音轨。积极提示可以「定义为引导产生的输出朝向所需的声音，或消极提示引导其远离不需要的声音」。
该公司表示：“这种灵活性使用户可以更好地控制 V2A 的输出，从而可以快速尝试不同的音讯输出并选择最佳匹配。”
我们正在分享视讯转音讯 (V2A) 生成技术的进展。 🎥
它可以为与场景声学相符的无声剪辑添加声音，伴随萤幕上的动作等等。
这里有 4 个例子——打开你的声音。 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— 谷歌 DeepMind (@GoogleDeepMind) 2024 年 6 月 17 日
Deepmind 不为竞争所动
最新的创新是 DeepMind 希望巩固其在行业中的主导地位之际推出的。今年早些时候，英国人工智慧语音产生器公司 ElevenLabs 在 B 轮融资中筹集了 8,000 万美元，实现了一个里程碑，据 Verdict 称，该公司估值超过 10 亿美元。
该公司表示，其用户已经产生了 100 多年的音讯。它还声称目前有 41% 的财富 500 强公司使用其音讯软体。
另请阅读：Google DeepMind 与 OpenAI：人工智慧影片生成领域的竞赛愈演愈烈
尽管存在这种竞争，DeepMind 仍表示他们并不急于向公众发布该技术。
该公司表示：“在我们考虑向更广泛的公众开放之前，我们的 V2A 技术将经过严格的安全评估和测试。”
DeepMind 也表示，V2A 可与 Veo 等影片产生模型配对，有助于创建逼真的音效。
Enacy Mapakame 的 Cryptopolitan 报告
Google DeepMind 开发出为 AI 视频制作声音的 V2A

创作者的更多内容

实时新闻

Google DeepMind 开发出为 AI 视频制作声音的 V2A

创作者的更多内容

实时新闻

热门文章