Google の AI 研究機関 DeepMind は、AI 生成ビデオのサウンドとセリフを作成できる V2A という AI ツールを開発中であることを明らかにしました。V2A はビデオ ツー オーディオの略で、テキストベースのプロンプトとビデオ ピクセルを使用して、ビデオのセリフ、音楽、効果音を生成します。

こちらもお読みください: Google DeepMind が TacticAI を発表: サッカー戦術に革命を起こす

DeepMind によれば、生成された効果音と音楽は、動画の意図されたトーンやキャラクターと一致しているとのこと。DeepMind はさらに、この技術により AI が生成した動画にさらなる生命感を与えることができると説明している。

V2Aはオーディオとビデオシーンを一致させます

オーディオ生成技術自体は目新しいものではないが、DeepMind は、同社の V2A ツールはオーディオとビデオを自動的にマッチングさせる初めてのツールであると主張している。

「ビデオ生成モデルは驚くべきペースで進歩しているが、現在のシステムの多くは無音の出力しか生成できない」とディープマインドはブログ投稿に記した。

「ビデオ、オーディオ、追加の注釈をトレーニングすることで、当社のテクノロジーは、注釈やトランスクリプトで提供される情報に応答しながら、特定のオーディオイベントをさまざまな視覚シーンに関連付けることを学習します。」

ディープマインド。

同社は、音やビデオ、タイミングの調整を必要とする時間のかかる手動調整とは対照的に、自社の技術は自動であると付け加えた。

DeepMind によると、V2A ツールは、あらゆるビデオ出力に対して無制限の数のサウンドトラックを生成するために使用できます。肯定的なプロンプトは、「生成された出力を望ましいサウンドに導くように定義したり、否定的なプロンプトは望ましくないサウンドから遠ざけるように定義したりできます。」

「この柔軟性により、ユーザーはV2Aの出力をより細かく制御できるようになり、さまざまなオーディオ出力を素早く試して最適なものを選択できるようになります」と同社は述べています。

ビデオからオーディオへの (V2A) 生成技術の進捗状況をお知らせします。🎥

シーンの音響に合わせたサウンドや、画面上のアクションに合わせたサウンドを無音クリップに追加できます。

ここに 4 つの例があります。サウンドをオンにしてください。🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 2024年6月17日

ディープマインドは競争に動じない

この最新のイノベーションは、ディープマインドが業界における優位性を強化したいと考えている中で生まれた。今年初め、英国のAI音声生成会社ElevenLabsはシリーズBの資金調達ラウンドで8000万ドルを調達し、企業価値が10億ドルを超えるという節目を達成したと、Verdictは報じている。

同社によれば、同社のユーザーは100年以上のオーディオを生成してきたという。また、同社のオーディオソフトウェアは現在、フォーチュン500企業の41%で使用されているとも主張している。

こちらもお読みください: Google DeepMind vs. OpenAI: AIビデオ生成の競争が激化

この競争にもかかわらず、DeepMind は、この技術を一般公開することを急いでいないことを示唆しています。

「より広く一般に公開することを検討する前に、当社のV2A技術は厳格な安全性評価とテストを受けることになる」と同社は述べた。

DeepMind はまた、V2A は Veo などのビデオ生成モデルと組み合わせることができ、リアルなサウンド効果の作成に役立つことも示しました。

Cryptopolitan の Enacy Mapakame によるレポート