谷歌人工智能研究实验室 DeepMind 透露,它正在开发一种名为 V2A 的人工智能工具,它可以为人工智能生成的视频创建声音和对话。V2A 代表视频转音频,它使用基于文本的提示和视频像素为视频生成对话、音乐和音效。

另请阅读:Google DeepMind 推出 TacticAI:彻底改变足球战术

据 DeepMind 介绍,生成的音效和音乐与视频的预期基调和特征相匹配。DeepMind 进一步解释说,该技术可以帮助为 AI 生成的视频增添更多生命力。

V2A 将音讯与视讯场景相匹配

虽然音讯生成技术并不是什么新鲜事,但 DeepMind 声称其 V2A 工具是同类中的第一个,可以自动将音讯与视讯进行配对。

DeepMind 在部落格文章中写道:“视频生成模型正在以令人难以置信的速度前进,但许多当前系统只能生成无声输出。”

「透过对视讯、音讯和附加注释进行训练,我们的技术学会将特定的音讯事件与各种视觉场景相关联,同时响应注释或文字记录中提供的资讯。”

深心。

该公司补充说,其技术是自动的,而不是需要调整声音、视讯和时间的耗时的手动对齐。

据 DeepMind 称,V2A 工具可用于为任何视讯输出产生无限数量的音轨。积极提示可以「定义为引导产生的输出朝向所需的声音,或消极提示引导其远离不需要的声音」。

该公司表示:“这种灵活性使用户可以更好地控制 V2A 的输出,从而可以快速尝试不同的音讯输出并选择最佳匹配。”

我们正在分享视讯转音讯 (V2A) 生成技术的进展。 🎥

它可以为与场景声学相符的无声剪辑添加声音,伴随萤幕上的动作等等。

这里有 4 个例子——打开你的声音。 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— 谷歌 DeepMind (@GoogleDeepMind) 2024 年 6 月 17 日

Deepmind 不为竞争所动

最新的创新是 DeepMind 希望巩固其在行业中的主导地位之际推出的。今年早些时候,英国人工智慧语音产生器公司 ElevenLabs 在 B 轮融资中筹集了 8,000 万美元,实现了一个里程碑,据 Verdict 称,该公司估值超过 10 亿美元。

该公司表示,其用户已经产生了 100 多年的音讯。它还声称目前有 41% 的财富 500 强公司使用其音讯软体。

另请阅读:Google DeepMind 与 OpenAI:人工智慧影片生成领域的竞赛愈演愈烈

尽管存在这种竞争,DeepMind 仍表示他们并不急于向公众发布该技术。

该公司表示:“在我们考虑向更广泛的公众开放之前,我们的 V2A 技术将经过严格的安全评估和测试。”

DeepMind 也表示,V2A 可与 Veo 等影片产生模型配对,有助于创建逼真的音效。

Enacy Mapakame 的 Cryptopolitan 报告