谷歌人工智能研究實驗室 DeepMind 透露,它正在開發一種名爲 V2A 的人工智能工具,它可以爲人工智能生成的視頻創建聲音和對話。V2A 代表視頻轉音頻,它使用基於文本的提示和視頻像素爲視頻生成對話、音樂和音效。

另請閱讀:Google DeepMind 推出 TacticAI:徹底改變足球戰術

據 DeepMind 介紹,生成的音效和音樂與視頻的預期基調和特徵相匹配。DeepMind 進一步解釋說,該技術可以幫助爲 AI 生成的視頻增添更多生命力。

V2A 將音訊與視訊場景相匹配

雖然音訊生成技術並不是什麼新鮮事,但 DeepMind 聲稱其 V2A 工具是同類中的第一個,可以自動將音訊與視訊進行配對。

DeepMind 在部落格文章中寫道:“視頻生成模型正在以令人難以置信的速度前進,但許多當前系統只能生成無聲輸出。”

「透過對視訊、音訊和附加註釋進行訓練,我們的技術學會將特定的音訊事件與各種視覺場景相關聯,同時響應註釋或文字記錄中提供的資訊。”

深心。

該公司補充說,其技術是自動的,而不是需要調整聲音、視訊和時間的耗時的手動對齊。

據 DeepMind 稱,V2A 工具可用於為任何視訊輸出產生無限數量的音軌。積極提示可以「定義為引導產生的輸出朝向所需的聲音,或消極提示引導其遠離不需要的聲音」。

該公司表示:“這種靈活性使用戶可以更好地控制 V2A 的輸出,從而可以快速嘗試不同的音訊輸出並選擇最佳匹配。”

我們正在分享視訊轉音訊 (V2A) 生成技術的進展。 🎥

它可以為與場景聲學相符的無聲剪輯添加聲音,伴隨螢幕上的動作等等。

這裡有 4 個例子——打開你的聲音。 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— 谷歌 DeepMind (@GoogleDeepMind) 2024 年 6 月 17 日

Deepmind 不為競爭所動

最新的創新是 DeepMind 希望鞏固其在行業中的主導地位之際推出的。今年早些時候,英國人工智慧語音產生器公司 ElevenLabs 在 B 輪融資中籌集了 8,000 萬美元,實現了一個里程碑,據 Verdict 稱,該公司估值超過 10 億美元。

該公司表示,其用戶已經產生了 100 多年的音訊。它還聲稱目前有 41% 的財富 500 強公司使用其音訊軟體。

另請閱讀:Google DeepMind 與 OpenAI:人工智慧影片生成領域的競賽愈演愈烈

儘管存在這種競爭,DeepMind 仍表示他們並不急於向公眾發布該技術。

該公司表示:“在我們考慮向更廣泛的公眾開放之前,我們的 V2A 技術將經過嚴格的安全評估和測試。”

DeepMind 也表示,V2A 可與 Veo 等影片產生模型配對,有助於創建逼真的音效。

Enacy Mapakame 的 Cryptopolitan 報告