Secondo Cointelegraph, Meta ha introdotto una nuova suite di modelli di intelligenza artificiale denominata "Movie Gen" il 4 ottobre, in grado di generare filmati fotorealistici lunghi fino a 16 secondi, completi di effetti sonori e tracce musicali di accompagnamento. Sebbene non sia il primo modello di intelligenza artificiale multimodale a generare video e audio da prompt di testo, Movie Gen sembra dimostrare capacità all'avanguardia. I ricercatori affermano che ha superato i sistemi rivali nei test sugli esseri umani.

Il post del blog di Meta rivela che Movie Gen può produrre filmati a una frequenza di fotogrammi di 16 fotogrammi al secondo (FPS). Per contestualizzare, i film tradizionali di Hollywood venivano girati a 24 FPS per ottenere l'"aspetto cinematografico". Sebbene nei giochi e in altre applicazioni grafiche siano preferite frequenze di FPS più elevate, i 16 FPS di Meta sono vicini alle immagini cinematografiche di qualità professionale. I modelli possono generare filmati completamente nuovi basati su semplici prompt di testo o modificare immagini o video esistenti per sostituire o alterare oggetti e sfondi.

Una delle funzionalità più avanzate di Movie Gen è la sua capacità di generare fino a 45 secondi di audio, inclusi effetti sonori e musica di sottofondo, che è integrato e sincronizzato con il movimento nei video generati. Nonostante questi progressi, Meta sta tenendo nascosti per ora i modelli di base dietro Movie Gen. L'azienda non ha fornito una tempistica per il lancio del prodotto, affermando che sono necessari ulteriori test di sicurezza prima dell'implementazione.

Un documento di ricerca del team AI di Meta indica che i modelli Movie Gen sono stati sviluppati per scopi di ricerca e necessitano di molteplici miglioramenti prima di essere distribuiti. L'azienda prevede di incorporare modelli di sicurezza per rifiutare prompt di input o generazioni che violano le proprie policy per impedirne l'uso improprio.