DeepMind, laboratorium penelitian AI Google telah mengungkapkan bahwa mereka sedang mengerjakan alat AI yang dikenal sebagai V2A, yang dapat menciptakan suara dan dialog untuk video yang dihasilkan AI. V2A, singkatan dari video-to-audio, menggunakan perintah berbasis teks dan piksel video untuk menghasilkan dialog, musik, dan efek suara untuk video.

Baca juga: Google DeepMind Memperkenalkan TacticAI: Merevolusi Taktik Sepak Bola

Menurut DeepMind, efek suara dan musik yang dihasilkan sesuai dengan nada dan karakter video yang diinginkan. DeepMind lebih lanjut menjelaskan bahwa teknologi ini dapat membantu menghidupkan lebih banyak video yang dihasilkan AI.

V2A mencocokkan adegan audio dan video

Meskipun teknologi penghasil audio bukanlah hal baru, DeepMind mengklaim alat V2A miliknya adalah yang pertama dari jenisnya, yang secara otomatis mencocokkan audio dengan video.

“Model pembuatan video mengalami kemajuan dengan kecepatan yang luar biasa, namun banyak sistem saat ini hanya dapat menghasilkan keluaran yang senyap,” tulis DeepMind dalam postingan blognya.

“Dengan melatih video, audio, dan anotasi tambahan, teknologi kami belajar mengaitkan peristiwa audio tertentu dengan berbagai adegan visual, sambil merespons informasi yang diberikan dalam anotasi atau transkrip.”

Pikiran Dalam.

Perusahaan menambahkan teknologinya otomatis dibandingkan penyelarasan manual yang memakan waktu dan memerlukan penyesuaian suara, video, dan pengaturan waktu.

Menurut DeepMind, alat V2A dapat digunakan untuk menghasilkan soundtrack dalam jumlah tak terbatas untuk keluaran video apa pun. Perintah positif dapat “didefinisikan untuk memandu keluaran yang dihasilkan menuju suara yang diinginkan, atau perintah negatif untuk mengarahkannya menjauh dari suara yang tidak diinginkan.”

“Fleksibilitas ini memberi pengguna kontrol lebih besar atas keluaran V2A, sehingga memungkinkan untuk bereksperimen dengan keluaran audio yang berbeda dengan cepat dan memilih yang paling cocok,” kata perusahaan tersebut.

Kami berbagi kemajuan dalam teknologi generatif video-ke-audio (V2A). 🎥

Itu dapat menambahkan suara ke klip senyap yang sesuai dengan akustik adegan, mengiringi aksi di layar, dan banyak lagi.

Berikut adalah 4 contoh – nyalakan suara Anda. https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 Juni 2024

Deepmind tidak terpengaruh oleh kompetisi

Inovasi terbaru hadir saat DeepMind ingin mengkonsolidasikan dominasinya di industri. Awal tahun ini, perusahaan pembuat suara AI asal Inggris, ElevenLabs, mencapai tonggak sejarah setelah putaran pendanaan seri B menghasilkan $80 juta, yang memberi nilai perusahaan lebih dari $1 miliar, menurut Verdict.

Perusahaan mengatakan penggunanya telah menghasilkan audio selama lebih dari 100 tahun. Ia juga mengklaim perangkat lunak audionya saat ini digunakan oleh 41% perusahaan Fortune 500.

Baca juga: Google DeepMind vs. OpenAI: Perlombaan Pembuatan Video AI Semakin Memanas

Terlepas dari persaingan ini, DeepMind telah mengindikasikan bahwa mereka tidak terburu-buru untuk merilis teknologinya ke publik.

“Sebelum kami mempertimbangkan untuk membuka akses ke masyarakat luas, teknologi V2A kami akan menjalani penilaian dan pengujian keamanan yang ketat,” kata perusahaan tersebut.

DeepMind juga mengindikasikan bahwa V2A dapat dipasangkan dengan model pembuatan video seperti Veo, yang membantu menciptakan efek suara yang realistis.

Pelaporan Cryptopolitan oleh Enacy Mapakame