De acordo com o Cointelegraph, a Meta introduziu um novo conjunto de modelos de inteligência artificial chamado 'Movie Gen' em 4 de outubro, capaz de gerar filmes fotorrealistas de até 16 segundos de duração, completos com efeitos sonoros e trilhas sonoras de apoio. Embora não seja o primeiro modelo de IA multimodal a gerar vídeo e áudio a partir de prompts de texto, o Movie Gen parece demonstrar capacidades de última geração. Pesquisadores afirmam que ele superou sistemas rivais em testes humanos.

A postagem do blog da Meta revela que o Movie Gen pode produzir filmes a uma taxa de quadros de 16 quadros por segundo (FPS). Para contextualizar, os filmes tradicionais de Hollywood foram filmados a 24 FPS para atingir a "aparência de filme". Embora taxas de FPS mais altas sejam preferidas em jogos e outros aplicativos gráficos, os 16 FPS da Meta estão próximos de imagens de filmes de qualidade profissional. Os modelos podem gerar filmes inteiramente novos com base em prompts de texto simples ou modificar imagens ou vídeos existentes para substituir ou alterar objetos e fundos.

Um dos recursos mais avançados do Movie Gen é sua capacidade de gerar até 45 segundos de áudio, incluindo efeitos sonoros e música de fundo, que é integrada e sincronizada com o movimento nos vídeos gerados. Apesar desses avanços, a Meta está mantendo os modelos de base por trás do Movie Gen em segredo por enquanto. A empresa não forneceu um prazo para o lançamento do produto, afirmando que mais testes de segurança são necessários antes da implantação.

Um artigo de pesquisa da equipe de IA da Meta indica que os modelos Movie Gen foram desenvolvidos para fins de pesquisa e precisam de várias melhorias antes de serem implantados. A empresa planeja incorporar modelos de segurança para rejeitar prompts de entrada ou gerações que violem suas políticas para evitar uso indevido.