Google DeepMind Develops V2A That Creates Sound for AI Videos

Cryptopolitan · 2024-06-18T21:03:03.000Z

DeepMind, Google’s AI research lab has revealed that it is working on an AI tool known as V2A, which can create sound and dialogue for AI-generated videos. V2A, which stands for video-to-audio uses text-based prompts and video pixels to generate dialogue, music, and sound effects for videos. Also read: Google DeepMind Introduces TacticAI: Revolutionizing Soccer Tactics According to DeepMind, the sound effects and music generated match the intended tone and characters of the video. DeepMind further explained that the technology could help bring more life to AI-generated videos. V2A matches audio to video scenes While audio-generating technology is nothing new, DeepMind claims its V2A tool is the first of its kind, which automatically matches audio to video. “Video generation models are advancing at an incredible pace, but many current systems can only generate silent output,” wrote DeepMind in a blog post. “By training on video, audio, and the additional annotations, our technology learns to associate specific audio events with various visual scenes, while responding to the information provided in the annotations or transcripts.” DeepMind. The company added its technology is automatic as opposed to time-consuming manual alignment which requires adjusting sounds, videos, and timings. According to DeepMind, the V2A tool can be used to generate an unlimited number of soundtracks for any video output. A positive prompt can be “defined to guide the generated output toward desired sounds, or a negative prompt to guide it away from undesired sounds.” “This flexibility gives users more control over V2A’s output, making it possible to rapidly experiment with different audio outputs and choose the best match,” said the company. We're sharing progress on our video-to-audio (V2A) generative technology. 🎥 It can add sound to silent clips that match the acoustics of the scene, accompany on-screen action, and more. Here are 4 examples – turn your sound on. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62 — Google DeepMind (@GoogleDeepMind) June 17, 2024 Deepmind unmoved by competition The latest innovation comes as DeepMind wants to consolidate its dominance in the industry. Earlier this year, UK AI voice generator firm ElevenLabs achieved a milestone after its series B funding round generated $80 million, valuing the company over $1 billion, according to Verdict. The company says its users have generated over 100 years of audio. It also claims its audio software is currently used by 41% of Fortune 500 companies. Also read: Google DeepMind vs. OpenAI: The Race in AI Video Generation Heats Up Despite this competition, DeepMind has indicated that they are not in a haste to release the technology to the public. “Before we consider opening access to the wider public, our V2A technology will undergo rigorous safety assessments and testing,” said the company. DeepMind also indicated that V2A is pairable with video generation models like Veo, which helps create realistic sound effects. Cryptopolitan reporting by Enacy Mapakame

DeepMind, Googles KI-Forschungslabor, hat bekannt gegeben, dass es an einem KI-Tool namens V2A arbeitet, das Ton und Dialog für KI-generierte Videos erstellen kann. V2A, die Abkürzung für Video-to-Audio, verwendet textbasierte Eingabeaufforderungen und Videopixel, um Dialoge, Musik und Soundeffekte für Videos zu generieren.
Lesen Sie auch: Google DeepMind stellt TacticAI vor: Revolutionierung der Fußballtaktik
Laut DeepMind entsprechen die generierten Soundeffekte und die Musik dem beabsichtigten Ton und den Charakteren des Videos. DeepMind erklärte weiter, dass die Technologie dazu beitragen könne, KI-generierten Videos mehr Leben einzuhauchen.
V2A gleicht Audio- und Videoszenen ab
Obwohl die Technologie zur Audiogenerierung nichts Neues ist, behauptet DeepMind, dass sein V2A-Tool das erste seiner Art ist, das Audio automatisch mit Video abgleicht.
„Modelle zur Videogenerierung entwickeln sich in unglaublichem Tempo weiter, aber viele aktuelle Systeme können nur stille Ausgaben erzeugen“, schrieb DeepMind in einem Blogbeitrag.
„Durch Training mit Video, Audio und den zusätzlichen Anmerkungen lernt unsere Technologie, bestimmte Audioereignisse mit verschiedenen visuellen Szenen zu verknüpfen und gleichzeitig auf die in den Anmerkungen oder Transkripten bereitgestellten Informationen zu reagieren.“
Tiefes Denken.
Das Unternehmen fügte hinzu, dass seine Technologie automatisch abläuft, im Gegensatz zur zeitaufwändigen manuellen Ausrichtung, bei der Töne, Videos und Zeitabläufe angepasst werden müssen.
Laut DeepMind kann das V2A-Tool verwendet werden, um eine unbegrenzte Anzahl von Soundtracks für jede Videoausgabe zu generieren. Eine positive Eingabeaufforderung kann „definiert werden, um die generierte Ausgabe in Richtung der gewünschten Klänge zu lenken, oder eine negative Eingabeaufforderung, um sie von unerwünschten Klängen wegzulenken.“
„Diese Flexibilität gibt den Benutzern mehr Kontrolle über die Ausgabe von V2A und ermöglicht es, schnell mit verschiedenen Audioausgängen zu experimentieren und die beste Übereinstimmung auszuwählen“, sagte das Unternehmen.
Wir teilen Fortschritte bei unserer generativen Video-to-Audio-Technologie (V2A). 🎥
Stummfilmen können damit Tonelemente hinzugefügt werden, die zur Akustik der Szene passen, die Handlung auf dem Bildschirm untermalen und vieles mehr.
Hier sind 4 Beispiele – schalte deinen Ton ein. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
– Google DeepMind (@GoogleDeepMind), 17. Juni 2024
Deepmind unbeeindruckt von der Konkurrenz
Die neueste Innovation kommt, während DeepMind seine Vormachtstellung in der Branche festigen möchte. Anfang des Jahres erreichte das britische Unternehmen für KI-Stimmgeneratoren ElevenLabs einen Meilenstein, nachdem es in seiner Finanzierungsrunde der Serie B 80 Millionen US-Dollar eingebracht hatte, was dem Unternehmen laut Verdict einen Wert von über einer Milliarde US-Dollar bescherte.
Das Unternehmen gibt an, dass seine Benutzer über 100 Jahre Audiomaterial erstellt haben. Außerdem wird seine Audiosoftware derzeit von 41 % der Fortune 500-Unternehmen verwendet.
Lesen Sie auch: Google DeepMind vs. OpenAI: Das Rennen um die KI-Videoerzeugung heizt sich auf
Trotz dieser Konkurrenz hat DeepMind angedeutet, dass man es nicht eilig habe, die Technologie der Öffentlichkeit zugänglich zu machen.
„Bevor wir eine Freigabe für die breite Öffentlichkeit in Betracht ziehen, wird unsere V2A-Technologie strengen Sicherheitsbewertungen und Tests unterzogen“, erklärte das Unternehmen.
DeepMind wies außerdem darauf hin, dass V2A mit Videogenerierungsmodellen wie Veo koppelbar ist, was dabei hilft, realistische Soundeffekte zu erzeugen.
Kryptopolitische Berichterstattung von Enacy Mapakame

Google DeepMind entwickelt V2A, das Ton für KI-Videos erzeugt

Weitere Inhalte des Erstellers entdecken

Aktuelle Nachrichten