Google DeepMind 開發出爲 AI 視頻製作聲音的 V2A

谷歌人工智能研究實驗室 DeepMind 透露，它正在開發一種名爲 V2A 的人工智能工具，它可以爲人工智能生成的視頻創建聲音和對話。V2A 代表視頻轉音頻，它使用基於文本的提示和視頻像素爲視頻生成對話、音樂和音效。
另請閱讀：Google DeepMind 推出 TacticAI：徹底改變足球戰術
據 DeepMind 介紹，生成的音效和音樂與視頻的預期基調和特徵相匹配。DeepMind 進一步解釋說，該技術可以幫助爲 AI 生成的視頻增添更多生命力。
V2A 將音訊與視訊場景相匹配
雖然音訊生成技術並不是什麼新鮮事，但 DeepMind 聲稱其 V2A 工具是同類中的第一個，可以自動將音訊與視訊進行配對。
DeepMind 在部落格文章中寫道：“視頻生成模型正在以令人難以置信的速度前進，但許多當前系統只能生成無聲輸出。”
「透過對視訊、音訊和附加註釋進行訓練，我們的技術學會將特定的音訊事件與各種視覺場景相關聯，同時響應註釋或文字記錄中提供的資訊。”
深心。
該公司補充說，其技術是自動的，而不是需要調整聲音、視訊和時間的耗時的手動對齊。
據 DeepMind 稱，V2A 工具可用於為任何視訊輸出產生無限數量的音軌。積極提示可以「定義為引導產生的輸出朝向所需的聲音，或消極提示引導其遠離不需要的聲音」。
該公司表示：“這種靈活性使用戶可以更好地控制 V2A 的輸出，從而可以快速嘗試不同的音訊輸出並選擇最佳匹配。”
我們正在分享視訊轉音訊 (V2A) 生成技術的進展。 🎥
它可以為與場景聲學相符的無聲剪輯添加聲音，伴隨螢幕上的動作等等。
這裡有 4 個例子——打開你的聲音。 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— 谷歌 DeepMind (@GoogleDeepMind) 2024 年 6 月 17 日
Deepmind 不為競爭所動
最新的創新是 DeepMind 希望鞏固其在行業中的主導地位之際推出的。今年早些時候，英國人工智慧語音產生器公司 ElevenLabs 在 B 輪融資中籌集了 8,000 萬美元，實現了一個里程碑，據 Verdict 稱，該公司估值超過 10 億美元。
該公司表示，其用戶已經產生了 100 多年的音訊。它還聲稱目前有 41% 的財富 500 強公司使用其音訊軟體。
另請閱讀：Google DeepMind 與 OpenAI：人工智慧影片生成領域的競賽愈演愈烈
儘管存在這種競爭，DeepMind 仍表示他們並不急於向公眾發布該技術。
該公司表示：“在我們考慮向更廣泛的公眾開放之前，我們的 V2A 技術將經過嚴格的安全評估和測試。”
DeepMind 也表示，V2A 可與 Veo 等影片產生模型配對，有助於創建逼真的音效。
Enacy Mapakame 的 Cryptopolitan 報告
Google DeepMind 開發出爲 AI 視頻製作聲音的 V2A

創作者的更多內容

實時新聞

Google DeepMind 開發出爲 AI 視頻製作聲音的 V2A

創作者的更多內容

實時新聞

熱門文章