Według Cointelegraph, Meta wprowadziła 4 października nowy zestaw modeli sztucznej inteligencji o nazwie „Movie Gen”, zdolny do generowania fotorealistycznych filmów o długości do 16 sekund, z efektami dźwiękowymi i podkładami muzycznymi. Chociaż nie jest to pierwszy multimodalny model AI generujący wideo i audio z komunikatów tekstowych, Movie Gen wydaje się demonstrować najnowocześniejsze możliwości. Naukowcy twierdzą, że przewyższył on konkurencyjne systemy w testach na ludziach.

Wpis na blogu Meta ujawnia, że ​​Movie Gen może generować filmy z szybkością klatek 16 klatek na sekundę (FPS). Dla kontekstu, tradycyjne filmy hollywoodzkie były kręcone z szybkością 24 FPS, aby uzyskać „wygląd filmowy”. Chociaż wyższe szybkości FPS są preferowane w grach i innych aplikacjach graficznych, 16 FPS Meta jest bliskie profesjonalnej jakości obrazu filmowego. Modele mogą generować zupełnie nowe filmy na podstawie prostych podpowiedzi tekstowych lub modyfikować istniejące obrazy lub filmy, aby zastąpić lub zmienić obiekty i tła.

Jedną z najbardziej zaawansowanych funkcji Movie Gen jest możliwość generowania do 45 sekund dźwięku, w tym efektów dźwiękowych i muzyki w tle, które są zintegrowane i zsynchronizowane z ruchem w generowanych filmach. Pomimo tych postępów Meta na razie trzyma w tajemnicy podstawowe modele stojące za Movie Gen. Firma nie podała harmonogramu wprowadzenia produktu na rynek, stwierdzając, że przed wdrożeniem wymagane są dalsze testy bezpieczeństwa.

Dokument badawczy zespołu AI Meta wskazuje, że modele Movie Gen zostały opracowane do celów badawczych i wymagają wielu ulepszeń przed wdrożeniem. Firma planuje włączyć modele bezpieczeństwa, aby odrzucać monity wejściowe lub generacje, które naruszają jej zasady, aby zapobiec niewłaściwemu użyciu.