Theo Cointelegraph, Meta đã giới thiệu một bộ mô hình trí tuệ nhân tạo mới có tên là 'Movie Gen' vào ngày 4 tháng 10, có khả năng tạo ra các bộ phim chân thực dài tới 16 giây, hoàn chỉnh với hiệu ứng âm thanh và nhạc nền. Mặc dù không phải là mô hình AI đa phương thức đầu tiên tạo ra video và âm thanh từ lời nhắc văn bản, Movie Gen dường như chứng minh được khả năng tiên tiến. Các nhà nghiên cứu tuyên bố rằng nó vượt trội hơn các hệ thống đối thủ trong thử nghiệm trên người.

Bài đăng trên blog của Meta tiết lộ rằng Movie Gen có thể xuất phim ở tốc độ khung hình 16 khung hình/giây (FPS). Để hiểu rõ hơn, các bộ phim Hollywood truyền thống được quay ở tốc độ 24 FPS để đạt được "hình ảnh phim". Mặc dù tốc độ FPS cao hơn được ưa chuộng trong trò chơi và các ứng dụng đồ họa khác, nhưng tốc độ 16 FPS của Meta gần với hình ảnh phim chất lượng chuyên nghiệp. Các mô hình có thể tạo ra các bộ phim hoàn toàn mới dựa trên các lời nhắc văn bản đơn giản hoặc sửa đổi hình ảnh hoặc video hiện có để thay thế hoặc thay đổi các đối tượng và nền.

Một trong những tính năng tiên tiến nhất của Movie Gen là khả năng tạo ra âm thanh lên đến 45 giây, bao gồm hiệu ứng âm thanh và nhạc nền, được tích hợp và đồng bộ với chuyển động trong các video được tạo ra. Bất chấp những tiến bộ này, Meta vẫn giữ kín các mô hình nền tảng đằng sau Movie Gen cho đến bây giờ. Công ty không cung cấp khung thời gian cho việc ra mắt sản phẩm, nêu rằng cần phải thử nghiệm an toàn thêm trước khi triển khai.

Một bài báo nghiên cứu từ nhóm AI của Meta chỉ ra rằng các mô hình Movie Gen được phát triển cho mục đích nghiên cứu và cần nhiều cải tiến trước khi triển khai. Công ty có kế hoạch kết hợp các mô hình an toàn để từ chối các lời nhắc nhập liệu hoặc các thế hệ vi phạm chính sách của họ để ngăn chặn việc sử dụng sai mục đích.