Meta представила набір моделей штучного інтелекту під назвою «Movie Gen» 4 жовтня, здатних створювати фотореалістичні фільми тривалістю до 16 секунд зі звуковими ефектами та музичними супроводами. 

Movie Gen — не перша мультимодальна модель штучного інтелекту, здатна генерувати відео та аудіо з простих текстових підказок, але, здається, вона демонструє найсучасніші можливості. Дослідники, відповідальні за розробку програми, стверджують, що вона перевершила конкурентні системи під час тестування на людях. 

Нерухоме зображення, взяте з фільму, створеного Meta Movie Gen. Джерело: Meta

Фільм Gen

Згідно з повідомленням у блозі Meta, Movie Gen наразі здатний виводити фільми тривалістю до 16 секунд із частотою кадрів 16 кадрів на секунду (FPS). З огляду на це, голлівудські фільми до епохи цифрових технологій традиційно знімали зі швидкістю 24 кадри в секунду, щоб досягти так званого «фільмового вигляду». 

Хоча вищі частоти кадрів в секунду вважаються кращими в іграх та інших графічних програмах, 16 кадрів в секунду Meta не далекі від того, що вважалося б кінозображенням професійної якості. 

Моделі Movie Gen можуть створювати абсолютно нові фільми на основі простих текстових підказок або змінювати існуючі зображення чи відео, щоб замінити чи змінити об’єкти та фон. 

Нерухомі зображення із завантаженого фільму відредаговані трьома різними способами. Джерело: Meta

Однак його найдосконалішим внеском може бути здатність набору штучного інтелекту генерувати до 45 секунд звуку зі звуковими ефектами та фоновою музикою. Відповідно до Meta, Movie Gen інтегрує та синхронізує аудіо з рухом у згенерованих відео. 

Тільки дослідження 

Meta поки що приховує базові моделі Movie Gen. Компанія не назвала часові рамки для запуску продукту та каже, що перед розгортанням буде потрібно подальше тестування безпеки.

Згідно з дослідницькою статтею команди AI Meta:

«Компанія базових моделей Movie Gen була розроблена для дослідницьких цілей і потребує багатьох удосконалень, перш ніж їх розгортати…  коли ми розгорнемо ці моделі, ми включимо моделі безпеки, які можуть відхиляти підказки введення або генерації, які порушують нашу політику, щоб запобігти неправильному використанню».

Журнал: магнат проти старіння Браян Джонсон майже присвятив своє життя криптовалюті