За даними Cointelegraph, 4 жовтня Meta представила новий набір моделей штучного інтелекту під назвою «Movie Gen», який здатний створювати фотореалістичні фільми тривалістю до 16 секунд зі звуковими ефектами та музичними супроводами. Хоча це не перша мультимодальна модель AI, яка генерує відео та аудіо з текстових підказок, Movie Gen, здається, демонструє найсучасніші можливості. Дослідники стверджують, що він перевершив конкуруючі системи під час тестування на людях.

Повідомлення в блозі Meta показує, що Movie Gen може виводити фільми з частотою кадрів 16 кадрів в секунду (FPS). Для контексту: традиційні голлівудські фільми знімалися зі швидкістю 24 кадри в секунду, щоб досягти «вигляду фільму». Незважаючи на те, що в іграх та інших графічних додатках бажано вищі частоти кадрів в секунду, 16 кадрів в секунду Meta близькі до відеозображень професійної якості. Моделі можуть генерувати абсолютно нові фільми на основі простих текстових підказок або змінювати існуючі зображення чи відео, щоб замінити або змінити об’єкти та фон.

Однією з найдосконаліших функцій Movie Gen є його здатність генерувати до 45 секунд аудіо, включаючи звукові ефекти та фонову музику, яка інтегрована та синхронізована з рухом у створених відео. Незважаючи на ці досягнення, Meta поки що тримає в таємниці базові моделі Movie Gen. Компанія не надала часові рамки запуску продукту, заявивши, що перед розгортанням необхідні додаткові тести безпеки.

Дослідницька стаття від команди штучного інтелекту Meta вказує на те, що моделі Movie Gen були розроблені для дослідницьких цілей і потребують численних удосконалень перед розгортанням. Компанія планує включити моделі безпеки, щоб відхилити підказки введення або генерації, які порушують її політику, щоб запобігти неправильному використанню.