Os investigadores da Adobe revelaram o VideoGigaGAN, um modelo de IA generativo que pode transformar vídeos desfocados em vídeos nítidos e suaves que parecem até 8x mais nítidos.
Já há algum tempo que temos bons upscalers de imagem, mas fazer um bom upscaler de vídeo é exponencialmente mais difícil.
A super-resolução de vídeo (VSR) é o processo que consiste em pegar em fotogramas individuais de um vídeo, aumentar a resolução e o detalhe e encaixar os fotogramas para recriar o vídeo.
Para fazer isso bem, é preciso resolver dois desafios conflitantes. Os actuais VSRs geram vídeos suaves e desfocados ou nítidos e com falhas.
O VideoGigaGAN da Adobe faz o upsample de vídeos desfocados para produzir um vídeo que seja temporalmente consistente (transições de quadros suaves) e tenha detalhes de alta freqüência.
Aqui está um exemplo do que o VideoGigaGAN pode fazer.
A investigação da Adobe abandona o VideoGigaGAN
Permite-lhe fazer upsample de vídeo em 8x com detalhes melhorados.
Papel nos comentários 👇 pic.twitter.com/7uEiU7bYqw
- Kris Kashtanova (@icreatelife) 22 de abril de 2024
Tal como o nome sugere, o método da Adobe baseia-se no GigaGAN, uma rede adversária generativa avançada (GAN).
Os GANs são óptimos a fazer upsampling de imagens, e o GigaGAN é um dos melhores a fazer super-resolução de imagens. Então, porque não utilizar simplesmente o GigaGAN em cada fotograma para melhorar a imagem e depois juntá-los todos para criar o vídeo?
Quando os investigadores da Adobe tentaram isso, obtiveram uma excelente resolução de vídeo, mas o vídeo resultante era temporalmente inconsistente e tremeluzia.
Ao adicionar camadas convolucionais temporais e de atenção ao GigaGAN, a inconsistência temporal foi corrigida, mas a cintilação continuou a ser um problema.
O VideoGigaGAN resolve este problema separando os elementos de baixa e alta frequência em cada fotograma e processando-os de forma diferente.
O mapa de características de baixa frequência é suavizado para remover detalhes de alta frequência, que podem ser fontes de ruído e cintilação.
Utilizando as ligações Skip, os detalhes mais finos nos componentes de alta frequência são retidos, contornando as camadas intermédias do modelo que, de outra forma, se perderiam no processamento.
Pode ler mais sobre os pormenores técnicos em O documento da Adobe.
O demos no GitHub da Adobe são muito impressionantes. A Adobe ainda não indicou uma data de lançamento, mas esperemos que nos deixem utilizá-lo em breve.
Imagine o que uma ferramenta como esta poderia fazer para imagens de arquivo históricas, filmes clássicos ou até mesmo para melhorar os seus programas de televisão antigos favoritos para HD.