Google Research a dévoilé Lumiere, un modèle de diffusion texte-vidéo qui crée des vidéos remarquablement réalistes à partir de textes ou d'images.
Les images fixes générées par des outils tels que Voyage à mi-parcours ou DALL-E sont incroyables, mais la conversion de texte en vidéo (TTV) est logiquement à la traîne et a été beaucoup moins impressionnante jusqu'à présent.
Les modèles TTV tels que ceux de Pika Labs ou de Stable Video Diffusion ont beaucoup évolué au cours des 12 derniers mois, mais le réalisme et la continuité du mouvement sont encore un peu maladroits.
Lumiere représente un grand pas en avant dans le domaine de la TTV grâce à une nouvelle approche de la génération de vidéos cohérentes dans l'espace et dans le temps. En d'autres termes, l'objectif est que les scènes de chaque image restent visuellement cohérentes et que les mouvements soient fluides.
Que peut faire Lumiere ?
Lumiere dispose d'une gamme de fonctionnalités de génération de vidéo, dont les suivantes :
- Du texte à la vidéo - Saisissez un texte et Lumiere génère un clip vidéo de 5 secondes composé de 80 images à 16 images par seconde.
- De l'image à la vidéo - Lumiere prend une image comme point de départ et la transforme en vidéo.
- Génération stylisée - Une image peut être utilisée comme référence de style. Lumiere utilise une invite de texte pour générer une vidéo dans le style de l'image de référence.
- Stylisation vidéo - Lumiere peut éditer une vidéo source pour qu'elle corresponde à un texte stylistique.
- Cinémagraphes - Sélectionnez une zone dans une image fixe et Lumiere animera cette partie de l'image.
- Inpeinture vidéo - Lumiere peut prendre une scène vidéo masquée et la peindre pour compléter la vidéo. Il peut également éditer une vidéo source en supprimant ou en remplaçant des éléments de la scène.
La vidéo ci-dessous montre quelques-unes des vidéos impressionnantes que Lumiere peut générer.
Comment fait Lumiere ?
Les modèles TTV existants adoptent une conception en cascade dans laquelle un modèle de base génère un sous-ensemble d'images clés et utilise ensuite un modèle de super-résolution temporelle (TSR) pour générer des données afin de combler les lacunes entre les images.
Cette approche est efficace en termes de mémoire, mais la tentative de combler les lacunes entre un ensemble sous-échantillonné d'images clés aboutit à une vidéo présentant des incohérences temporelles ou des mouvements parasites. Les images à faible résolution sont ensuite mises à l'échelle à l'aide d'un modèle de super-résolution spatiale (SSR) sur des fenêtres qui ne se chevauchent pas.
Lumiere adopte une approche différente. Il utilise une architecture Space-Time U-Net (STUNet) qui apprend à sous-échantillonner le signal à la fois dans l'espace et dans le temps et traite toutes les images en même temps.
Parce qu'il ne se contente pas de transmettre un sous-ensemble d'images clés à un TSR, Lumiere permet d'obtenir un mouvement globalement cohérent. Pour obtenir la vidéo haute résolution, Lumiere applique un modèle SSR sur des fenêtres qui se chevauchent et utilise la MultiDiffusion pour combiner les prédictions en un résultat cohérent.
Google Research a réalisé une étude auprès des utilisateurs qui a montré qu'ils préféraient largement les vidéos Lumiere aux autres modèles de TTV.
Le résultat final n'est peut-être qu'un clip de 5 secondes, mais le réalisme et la cohérence des images et des mouvements sont supérieurs à tout ce qui est actuellement disponible. La plupart des autres solutions TTV ne génèrent pour l'instant que des clips de 3 secondes.
Lumiere ne gère pas les transitions de scènes ou les scènes vidéo à prises de vue multiples, mais une fonctionnalité multi-scène plus longue est certainement en cours de développement.
Dans le cadre de la Document de recherche sur la lumièreGoogle a indiqué qu'"il existe un risque d'utilisation abusive de notre technologie pour la création de contenus falsifiés ou nuisibles".
J'espère qu'ils trouveront un moyen de filigraner efficacement leurs vidéos et d'éviter les problèmes de droits d'auteur, afin qu'ils puissent publier Lumiere pour que nous puissions le mettre à l'épreuve.