Podle Cointelegraph společnost Meta 4. října představila novou sadu modelů umělé inteligence s názvem „Movie Gen“, která je schopna generovat fotorealistické filmy dlouhé až 16 sekund, doplněné zvukovými efekty a doprovodnými hudebními stopami. Ačkoli to není první multimodální model umělé inteligence, který generuje video a zvuk z textových výzev, zdá se, že Movie Gen demonstruje nejmodernější schopnosti. Výzkumníci tvrdí, že v testech na lidech překonal konkurenční systémy.

Blogový příspěvek Meta odhaluje, že Movie Gen může vytvářet filmy s frekvencí 16 snímků za sekundu (FPS). Pro kontext, tradiční hollywoodské filmy byly natočeny při 24 FPS, aby bylo dosaženo „filmového vzhledu“. I když jsou ve hrách a jiných grafických aplikacích preferovány vyšší frekvence FPS, 16 FPS Meta se blíží filmovým snímkům v profesionální kvalitě. Modely mohou generovat zcela nové filmy na základě jednoduchých textových výzev nebo upravovat stávající obrázky či videa tak, aby nahradily nebo pozměnily objekty a pozadí.

Jednou z nejpokročilejších funkcí aplikace Movie Gen je její schopnost generovat až 45 sekund zvuku, včetně zvukových efektů a hudby na pozadí, která je integrována a synchronizována s pohybem generovaných videí. Navzdory těmto pokrokům zatím Meta drží základní modely za Movie Gen pod pokličkou. Společnost neposkytla časový rámec pro uvedení produktu na trh s tím, že před nasazením je nutné provést další bezpečnostní testy.

Výzkumný dokument týmu Meta's AI naznačuje, že modely Movie Gen byly vyvinuty pro výzkumné účely a před nasazením potřebují několik vylepšení. Společnost plánuje začlenit bezpečnostní modely k odmítnutí vstupních výzev nebo generací, které porušují jejich zásady, aby se zabránilo zneužití.