Laut Cointelegraph hat Meta am 4. Oktober eine neue Suite von KI-Modellen namens „Movie Gen“ vorgestellt, die fotorealistische Filme mit einer Länge von bis zu 16 Sekunden erstellen kann, komplett mit Soundeffekten und Hintergrundmusik. Obwohl Movie Gen nicht das erste multimodale KI-Modell ist, das Video und Audio aus Textaufforderungen generiert, scheint es über hochmoderne Fähigkeiten zu verfügen. Forscher behaupten, dass es bei Tests mit Menschen konkurrierende Systeme übertroffen hat.

Metas Blogbeitrag verrät, dass Movie Gen Filme mit einer Bildrate von 16 Bildern pro Sekunde (FPS) ausgeben kann. Zum Vergleich: Traditionelle Hollywoodfilme wurden mit 24 FPS gedreht, um den „Filmlook“ zu erzielen. Obwohl bei Spielen und anderen Grafikanwendungen höhere FPS-Raten bevorzugt werden, kommen Metas 16 FPS der Qualität professioneller Filmbilder nahe. Die Modelle können auf der Grundlage einfacher Textaufforderungen völlig neue Filme generieren oder vorhandene Bilder oder Videos ändern, um Objekte und Hintergründe zu ersetzen oder zu verändern.

Eine der fortschrittlichsten Funktionen von Movie Gen ist die Fähigkeit, bis zu 45 Sekunden Audio zu generieren, einschließlich Soundeffekten und Hintergrundmusik, die in die Bewegung der generierten Videos integriert und mit dieser synchronisiert wird. Trotz dieser Fortschritte hält Meta die Grundmodelle von Movie Gen vorerst geheim. Das Unternehmen hat keinen Zeitrahmen für die Produkteinführung angegeben und erklärt, dass vor der Bereitstellung weitere Sicherheitstests erforderlich sind.

Ein Forschungsbericht des KI-Teams von Meta weist darauf hin, dass die Movie Gen-Modelle zu Forschungszwecken entwickelt wurden und vor ihrer Einführung mehrere Verbesserungen benötigen. Das Unternehmen plant, Sicherheitsmodelle zu integrieren, um Eingabeaufforderungen oder Generierungen abzulehnen, die gegen ihre Richtlinien verstoßen, um Missbrauch zu verhindern.