Meta Unveils AI Model Movie Gen For Photorealistic Video Creation

Binance News · 2024-10-04T16:43:41.000Z

According to Cointelegraph, Meta has introduced a new suite of artificial intelligence models named 'Movie Gen' on October 4, capable of generating photorealistic movies up to 16 seconds long, complete with sound effects and backing music tracks. While not the first multimodal AI model to generate video and audio from text prompts, Movie Gen appears to demonstrate state-of-the-art capabilities. Researchers claim it outperformed rival systems in human testing. Meta's blog post reveals that Movie Gen can output movies at a frame rate of 16 frames per second (FPS). For context, traditional Hollywood films were shot at 24 FPS to achieve the 'film look.' Although higher FPS rates are preferred in gaming and other graphical applications, Meta's 16 FPS is close to professional-quality movie imagery. The models can generate entirely new movies based on simple text prompts or modify existing images or videos to replace or alter objects and backgrounds. One of the most advanced features of Movie Gen is its ability to generate up to 45 seconds of audio, including sound effects and background music, which is integrated and synced with the motion in the generated videos. Despite these advancements, Meta is keeping the foundation models behind Movie Gen under wraps for now. The company has not provided a timeframe for the product's launch, stating that further safety testing is required before deployment. A research paper from Meta's AI team indicates that the Movie Gen models were developed for research purposes and need multiple improvements before being deployed. The company plans to incorporate safety models to reject input prompts or generations that violate their policies to prevent misuse.

Theo Cointelegraph, Meta đã giới thiệu một bộ mô hình trí tuệ nhân tạo mới có tên là 'Movie Gen' vào ngày 4 tháng 10, có khả năng tạo ra các bộ phim chân thực dài tới 16 giây, hoàn chỉnh với hiệu ứng âm thanh và nhạc nền. Mặc dù không phải là mô hình AI đa phương thức đầu tiên tạo ra video và âm thanh từ lời nhắc văn bản, Movie Gen dường như chứng minh được khả năng tiên tiến. Các nhà nghiên cứu tuyên bố rằng nó vượt trội hơn các hệ thống đối thủ trong thử nghiệm trên người.
Bài đăng trên blog của Meta tiết lộ rằng Movie Gen có thể xuất phim ở tốc độ khung hình 16 khung hình/giây (FPS). Để hiểu rõ hơn, các bộ phim Hollywood truyền thống được quay ở tốc độ 24 FPS để đạt được "hình ảnh phim". Mặc dù tốc độ FPS cao hơn được ưa chuộng trong trò chơi và các ứng dụng đồ họa khác, nhưng tốc độ 16 FPS của Meta gần với hình ảnh phim chất lượng chuyên nghiệp. Các mô hình có thể tạo ra các bộ phim hoàn toàn mới dựa trên các lời nhắc văn bản đơn giản hoặc sửa đổi hình ảnh hoặc video hiện có để thay thế hoặc thay đổi các đối tượng và nền.
Một trong những tính năng tiên tiến nhất của Movie Gen là khả năng tạo ra âm thanh lên đến 45 giây, bao gồm hiệu ứng âm thanh và nhạc nền, được tích hợp và đồng bộ với chuyển động trong các video được tạo ra. Bất chấp những tiến bộ này, Meta vẫn giữ kín các mô hình nền tảng đằng sau Movie Gen cho đến bây giờ. Công ty không cung cấp khung thời gian cho việc ra mắt sản phẩm, nêu rằng cần phải thử nghiệm an toàn thêm trước khi triển khai.
Một bài báo nghiên cứu từ nhóm AI của Meta chỉ ra rằng các mô hình Movie Gen được phát triển cho mục đích nghiên cứu và cần nhiều cải tiến trước khi triển khai. Công ty có kế hoạch kết hợp các mô hình an toàn để từ chối các lời nhắc nhập liệu hoặc các thế hệ vi phạm chính sách của họ để ngăn chặn việc sử dụng sai mục đích.

Tin tức mới nhất

Bài viết thịnh hành