Les chercheurs d'Adobe ont dévoilé VideoGigaGAN, un modèle d'IA générative capable de convertir des vidéos floues en vidéos nettes et fluides d'une netteté jusqu'à 8 fois supérieure.
Nous disposons depuis un certain temps de très bons upscalers d'image, mais il est exponentiellement plus difficile de fabriquer un bon upscaler vidéo.
La super résolution vidéo (VSR) est le processus qui consiste à prendre des images individuelles d'une vidéo, à augmenter la résolution et les détails, et à ajuster les images ensemble pour recréer la vidéo.
Pour y parvenir, il faut résoudre deux problèmes contradictoires. Les VSR actuels génèrent des vidéos soit fluides et floues, soit nettes et irrégulières.
VideoGigaGAN d'Adobe suréchantillonne les vidéos floues pour produire une vidéo qui est à la fois cohérente dans le temps (transitions d'images fluides) et qui présente des détails à haute fréquence.
Voici un exemple de ce que VideoGigaGAN peut faire.
La recherche Adobe abandonne VideoGigaGAN
Il vous permet de suréchantillonner les vidéos par 8x avec des détails améliorés.
Papier dans les commentaires 👇 pic.twitter.com/7uEiU7bYqw
- Kris Kashtanova (@icreatelife) 22 avril 2024
Comme son nom l'indique, la méthode d'Adobe s'appuie sur GigaGAN, un réseau accusatoire génératif (GAN) avancé.
Les GANs sont excellents pour suréchantillonner les images, et GigaGAN est l'un des meilleurs pour la super-résolution d'images. Alors pourquoi ne pas simplement utiliser GigaGAN sur chaque image pour augmenter l'échelle de l'image et ensuite les assembler pour faire la vidéo ?
Lorsque les chercheurs d'Adobe ont essayé cette méthode, ils ont obtenu une excellente résolution vidéo, mais la vidéo résultante était incohérente dans le temps et scintillait.
En ajoutant des couches convolutives temporelles et des couches d'attention au GigaGAN, l'incohérence temporelle a été corrigée, mais le scintillement restait un problème.
VideoGigaGAN résout ce problème en séparant les éléments à basse et à haute fréquence dans chaque image et en les traitant différemment.
La carte des caractéristiques à basse fréquence est lissée pour supprimer les détails à haute fréquence, qui peuvent être des sources de bruit et de scintillement.
En utilisant les connexions "Skip", les détails les plus fins des composantes à haute fréquence sont conservés en contournant les couches intermédiaires du modèle qui seraient autrement perdues lors du traitement.
Pour en savoir plus sur les détails techniques, consultez le site Document d'Adobe.
Les démos sur le GitHub d'Adobe sont très impressionnants. Adobe n'a pas indiqué de date de sortie, mais espérons qu'il nous permettra de l'utiliser bientôt.
Imaginez ce qu'un tel outil pourrait faire pour les images d'archives historiques, les films classiques, ou même pour convertir en HD vos anciennes émissions de télévision préférées.