Kuaishou Technology Unveils Kling AI, Empowering Users To Create Videos Via Text-to-Video Generation

La société technologique chinoise Kuaishou Technology, connue pour sa communauté de contenu et sa plateforme sociale, a dévoilé Kling AI, un nouvel outil conçu pour générer des vidéos très réalistes à partir d'invites textuelles, représentant un concurrent potentiel du modèle Sora d'OpenAI.

Sora est un modèle d'IA conçu pour générer des scènes réalistes et créatives basées sur la saisie textuelle. Au cœur des capacités de génération vidéo de Sora se trouve un cadre d’apprentissage en profondeur. Le modèle apprend les associations entre des mots et des phrases avec divers éléments tels que des objets, des actions, des environnements et des nuances stylistiques.

Alors que le modèle Sora d'OpenAI est capable de générer des vidéos d'une durée maximale d'une minute, l'IA de Kling peut produire des vidéos réalistes atteignant jusqu'à deux minutes avec une résolution de 1080p à 30 images par seconde. Il prend en charge plusieurs formats d'image et atteint un niveau de détail élevé grâce à des techniques avancées de reconstruction du visage et du corps en 3D, garantissant que ses vidéos générées par l'IA sont pratiquement impossibles à distinguer des images réelles.

Kling AI utilise un auto-encodeur variationnel 3D (VAE) pour reconstruire les visages et les corps, permettant ainsi de générer des expressions détaillées et des mouvements des membres à partir d'une seule image du corps entier. Cette technologie est renforcée par un mécanisme d’attention conjointe spatio-temporelle 3D, améliorant la capacité du modèle à gérer des scènes et des mouvements complexes. Cela garantit que le contenu généré reste cohérent avec les lois de la physique.

L'application adopte une approche en libre accès, bien qu'avec des limitations régionales en place. Le modèle fonctionne actuellement dans sa phase d'essai.

Il y a moins de 48 heures, le concurrent de Sora, Kling, a abandonné.

Les gens ont déjà accès et créent des vidéos d’IA sauvages. 🤯

1. Publicité MadMax Beer réalisée en 1 heurepic.twitter.com/CyKm2aI0It

– Min Choi (@minchoi) 8 juin 2024

Kuaishou Technology dévoile le modèle texte-image KwaiYii LLM et Kolors

Kuaishou Technology fait partie des nombreuses entreprises technologiques chinoises en compétition pour introduire des alternatives à Sora. La capacité de conversion texte-vidéo représente sa plus récente innovation en matière d'IA, après l'introduction de son modèle de langage étendu KwaiYii (LLM) et du modèle texte-image Kolors, qui a fait ses débuts en mai.

De plus, la fonctionnalité « AI Dancer », accessible dans l'application Kuaishou Technology et l'application de production vidéo Kwaiying, permet aux utilisateurs de télécharger une photo statique et de générer des vidéos présentant le personnage dansant sur des rythmes et des mouvements spécifiés.

L'article Kuaishou Technology dévoile Kling AI, permettant aux utilisateurs de créer des vidéos via la génération texte-vidéo apparaît en premier sur Metaverse Post.