Según Cointelegraph, Meta presentó el 4 de octubre un nuevo conjunto de modelos de inteligencia artificial llamados "Movie Gen", capaces de generar películas fotorrealistas de hasta 16 segundos de duración, con efectos de sonido y pistas de música de fondo. Si bien no es el primer modelo de IA multimodal que genera video y audio a partir de indicaciones de texto, Movie Gen parece demostrar capacidades de última generación. Los investigadores afirman que superó a los sistemas rivales en las pruebas en humanos.

La publicación del blog de Meta revela que Movie Gen puede generar películas a una velocidad de 16 cuadros por segundo (FPS). Para ponerlo en contexto, las películas tradicionales de Hollywood se filmaban a 24 FPS para lograr el "aspecto cinematográfico". Aunque se prefieren velocidades de FPS más altas en juegos y otras aplicaciones gráficas, los 16 FPS de Meta se acercan a las imágenes de películas de calidad profesional. Los modelos pueden generar películas completamente nuevas basadas en indicaciones de texto simples o modificar imágenes o videos existentes para reemplazar o alterar objetos y fondos.

Una de las características más avanzadas de Movie Gen es su capacidad de generar hasta 45 segundos de audio, incluidos efectos de sonido y música de fondo, que se integra y sincroniza con el movimiento de los videos generados. A pesar de estos avances, Meta mantiene en secreto por ahora los modelos básicos de Movie Gen. La empresa no ha proporcionado un plazo para el lanzamiento del producto, afirmando que se requieren más pruebas de seguridad antes de su implementación.

Un artículo de investigación del equipo de IA de Meta indica que los modelos Movie Gen se desarrollaron con fines de investigación y necesitan múltiples mejoras antes de implementarse. La empresa planea incorporar modelos de seguridad para rechazar solicitudes de entrada o generaciones que violen sus políticas para evitar un uso indebido.