L'entreprise technologique chinoise Kuaishou Technology a lancé un générateur de texte-vidéo (T2V) appelé Kling, qui pourrait rivaliser avec Sora d'OpenAI.
En février, OpenAI nous a impressionnés avec Sora Vidéos de démonstration qui nous a fait chercher frénétiquement le bouton "s'inscrire". Quatre mois plus tard, nous attendons toujours la sortie de Sora sans savoir quand elle aura lieu.
La société Kuaishou, basée à Pékin, développe des plateformes de partage de contenu qui, selon elle, rendent "la production, la distribution et la consommation de contenu rapides et faciles". La plateforme de vidéos courtes de l'entreprise, également appelée Kuaishou, est la deuxième derrière TikTok en termes d'utilisateurs actifs quotidiens moyens.
La production de contenu pour ses plateformes serait beaucoup plus facile si elle n'avait pas à s'appuyer sur du contenu généré par l'homme. C'est peut-être ce qui a motivé le développement de son outil T2V.
Kling transforme les messages textes en vidéos cohérentes dans le temps et dans l'espace. Kuaishou dit Kling peut générer des vidéos d'une durée maximale de 2 minutes à une résolution de 1080p et 30 images par seconde.
C'est une minute de plus que ce que Sora peut produire selon OpenAI. L'autre grande différence est que Kling a été rendu public alors que Sora est encore sous le sceau du secret. Si vous êtes en Chine, ou si vous disposez d'un numéro de téléphone portable chinois et d'un VPN, vous pouvez demander à essayer l'application dès maintenant.
Comme Sora, Kling utilise une architecture de transformateur de diffusion. Il dispose également d'une puissante technologie de reconstruction du visage et du corps en 3D qui peut utiliser une image du corps entier pour générer une vidéo avec des mouvements fluides des membres.
Si vous vous souvenez de la vidéo un peu terrifiante de Will Smith mangeant des spaghettis, datant des débuts de la vidéo générée par l'IA, vous comprendrez à quel point cette vidéo générée par Kling est étonnante.
Sora par OpenAI est insensé.
Mais KWAI vient de lâcher un Sora-Le modèle KLING, qui s'apparente à l'automobile, fait l'objet d'un engouement sans précédent.
Voici 10 exemples de ce type que vous ne devez pas manquer :
1. Un Chinois est assis à une table et mange des nouilles avec des baguettes.pic.twitter.com/MIV5IP3fyQ
- Angry Tom (@AngryTomtweets) 6 juin 2024
La plupart des vidéos de démonstration impressionnantes qui impliquent beaucoup de mouvements sont des clips courts. Les vidéos plus longues sont plus scéniques et comportent moins d'éléments dynamiques, ce qui peut laisser entrevoir certaines des limites de l'outil.
Ce clip d'une scène changeante montrée du point de vue de la fenêtre d'un train est assez impressionnant.
2. Voyager en train, voir toutes sortes de paysages par la fenêtrepic.twitter.com/WqF9rlJxbh
- Angry Tom (@AngryTomtweets) 6 juin 2024
Les éléments visuels avec lesquels l'IA a toujours eu du mal à composer sont les doigts, les dents ou les mouvements naturels de la bouche. Voici un clip impressionnant qui montre que Kling y parvient de manière très naturelle.
3. Un Chinois portant des lunettes déguste un délicieux cheeseburger les yeux fermés dans un fast-food.pic.twitter.com/ZOCy0n3gTa
- Angry Tom (@AngryTomtweets) 6 juin 2024
La version bêta de Kling est en quelque sorte un commentaire sur l'approche Est-Ouest de l'IA. Alors que l'Occident débat de la sécurité de l'IA, de la protection de la vie privée et des dangers de la désinformation, la Chine va de l'avant avec son développement. Et ce, malgré les sanctions américaines qui tentent de la ralentir.
Pendant qu'OpenAI tente de trouver un moyen de rendre Sora "sûr" ou politiquement correct, nous devrons peut-être nous tourner vers la Chine pour qu'elle nous fournisse un outil T2V décent en l'absence d'un outil fabriqué aux États-Unis.