Meta Unveils AI Model Movie Gen For Photorealistic Video Creation

Binance News · 2024-10-04T16:43:41.000Z

According to Cointelegraph, Meta has introduced a new suite of artificial intelligence models named 'Movie Gen' on October 4, capable of generating photorealistic movies up to 16 seconds long, complete with sound effects and backing music tracks. While not the first multimodal AI model to generate video and audio from text prompts, Movie Gen appears to demonstrate state-of-the-art capabilities. Researchers claim it outperformed rival systems in human testing. Meta's blog post reveals that Movie Gen can output movies at a frame rate of 16 frames per second (FPS). For context, traditional Hollywood films were shot at 24 FPS to achieve the 'film look.' Although higher FPS rates are preferred in gaming and other graphical applications, Meta's 16 FPS is close to professional-quality movie imagery. The models can generate entirely new movies based on simple text prompts or modify existing images or videos to replace or alter objects and backgrounds. One of the most advanced features of Movie Gen is its ability to generate up to 45 seconds of audio, including sound effects and background music, which is integrated and synced with the motion in the generated videos. Despite these advancements, Meta is keeping the foundation models behind Movie Gen under wraps for now. The company has not provided a timeframe for the product's launch, stating that further safety testing is required before deployment. A research paper from Meta's AI team indicates that the Movie Gen models were developed for research purposes and need multiple improvements before being deployed. The company plans to incorporate safety models to reject input prompts or generations that violate their policies to prevent misuse.

Según Cointelegraph, Meta presentó el 4 de octubre un nuevo conjunto de modelos de inteligencia artificial llamados "Movie Gen", capaces de generar películas fotorrealistas de hasta 16 segundos de duración, con efectos de sonido y pistas de música de fondo. Si bien no es el primer modelo de IA multimodal que genera video y audio a partir de indicaciones de texto, Movie Gen parece demostrar capacidades de última generación. Los investigadores afirman que superó a los sistemas rivales en las pruebas en humanos.
La publicación del blog de Meta revela que Movie Gen puede generar películas a una velocidad de 16 cuadros por segundo (FPS). Para ponerlo en contexto, las películas tradicionales de Hollywood se filmaban a 24 FPS para lograr el "aspecto cinematográfico". Aunque se prefieren velocidades de FPS más altas en juegos y otras aplicaciones gráficas, los 16 FPS de Meta se acercan a las imágenes de películas de calidad profesional. Los modelos pueden generar películas completamente nuevas basadas en indicaciones de texto simples o modificar imágenes o videos existentes para reemplazar o alterar objetos y fondos.
Una de las características más avanzadas de Movie Gen es su capacidad de generar hasta 45 segundos de audio, incluidos efectos de sonido y música de fondo, que se integra y sincroniza con el movimiento de los videos generados. A pesar de estos avances, Meta mantiene en secreto por ahora los modelos básicos de Movie Gen. La empresa no ha proporcionado un plazo para el lanzamiento del producto, afirmando que se requieren más pruebas de seguridad antes de su implementación.
Un artículo de investigación del equipo de IA de Meta indica que los modelos Movie Gen se desarrollaron con fines de investigación y necesitan múltiples mejoras antes de implementarse. La empresa planea incorporar modelos de seguridad para rechazar solicitudes de entrada o generaciones que violen sus políticas para evitar un uso indebido.

Explora más de este creador

Lo más reciente

Explora más de este creador

Lo más reciente

Artículos populares