DeepMind, Googles KI-Forschungslabor, hat bekannt gegeben, dass es an einem KI-Tool namens V2A arbeitet, das Ton und Dialog für KI-generierte Videos erstellen kann. V2A, die Abkürzung für Video-to-Audio, verwendet textbasierte Eingabeaufforderungen und Videopixel, um Dialoge, Musik und Soundeffekte für Videos zu generieren.

Lesen Sie auch: Google DeepMind stellt TacticAI vor: Revolutionierung der Fußballtaktik

Laut DeepMind entsprechen die generierten Soundeffekte und die Musik dem beabsichtigten Ton und den Charakteren des Videos. DeepMind erklärte weiter, dass die Technologie dazu beitragen könne, KI-generierten Videos mehr Leben einzuhauchen.

V2A gleicht Audio- und Videoszenen ab

Obwohl die Technologie zur Audiogenerierung nichts Neues ist, behauptet DeepMind, dass sein V2A-Tool das erste seiner Art ist, das Audio automatisch mit Video abgleicht.

„Modelle zur Videogenerierung entwickeln sich in unglaublichem Tempo weiter, aber viele aktuelle Systeme können nur stille Ausgaben erzeugen“, schrieb DeepMind in einem Blogbeitrag.

„Durch Training mit Video, Audio und den zusätzlichen Anmerkungen lernt unsere Technologie, bestimmte Audioereignisse mit verschiedenen visuellen Szenen zu verknüpfen und gleichzeitig auf die in den Anmerkungen oder Transkripten bereitgestellten Informationen zu reagieren.“

Tiefes Denken.

Das Unternehmen fügte hinzu, dass seine Technologie automatisch abläuft, im Gegensatz zur zeitaufwändigen manuellen Ausrichtung, bei der Töne, Videos und Zeitabläufe angepasst werden müssen.

Laut DeepMind kann das V2A-Tool verwendet werden, um eine unbegrenzte Anzahl von Soundtracks für jede Videoausgabe zu generieren. Eine positive Eingabeaufforderung kann „definiert werden, um die generierte Ausgabe in Richtung der gewünschten Klänge zu lenken, oder eine negative Eingabeaufforderung, um sie von unerwünschten Klängen wegzulenken.“

„Diese Flexibilität gibt den Benutzern mehr Kontrolle über die Ausgabe von V2A und ermöglicht es, schnell mit verschiedenen Audioausgängen zu experimentieren und die beste Übereinstimmung auszuwählen“, sagte das Unternehmen.

Wir teilen Fortschritte bei unserer generativen Video-to-Audio-Technologie (V2A). 🎥

Stummfilmen können damit Tonelemente hinzugefügt werden, die zur Akustik der Szene passen, die Handlung auf dem Bildschirm untermalen und vieles mehr.

Hier sind 4 Beispiele – schalte deinen Ton ein. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

– Google DeepMind (@GoogleDeepMind), 17. Juni 2024

Deepmind unbeeindruckt von der Konkurrenz

Die neueste Innovation kommt, während DeepMind seine Vormachtstellung in der Branche festigen möchte. Anfang des Jahres erreichte das britische Unternehmen für KI-Stimmgeneratoren ElevenLabs einen Meilenstein, nachdem es in seiner Finanzierungsrunde der Serie B 80 Millionen US-Dollar eingebracht hatte, was dem Unternehmen laut Verdict einen Wert von über einer Milliarde US-Dollar bescherte.

Das Unternehmen gibt an, dass seine Benutzer über 100 Jahre Audiomaterial erstellt haben. Außerdem wird seine Audiosoftware derzeit von 41 % der Fortune 500-Unternehmen verwendet.

Lesen Sie auch: Google DeepMind vs. OpenAI: Das Rennen um die KI-Videoerzeugung heizt sich auf

Trotz dieser Konkurrenz hat DeepMind angedeutet, dass man es nicht eilig habe, die Technologie der Öffentlichkeit zugänglich zu machen.

„Bevor wir eine Freigabe für die breite Öffentlichkeit in Betracht ziehen, wird unsere V2A-Technologie strengen Sicherheitsbewertungen und Tests unterzogen“, erklärte das Unternehmen.

DeepMind wies außerdem darauf hin, dass V2A mit Videogenerierungsmodellen wie Veo koppelbar ist, was dabei hilft, realistische Soundeffekte zu erzeugen.

Kryptopolitische Berichterstattung von Enacy Mapakame