Los investigadores de Adobe han presentado VideoGigaGAN, un modelo generativo de inteligencia artificial capaz de convertir vídeos borrosos en otros más nítidos y fluidos, hasta 8 veces más definidos.
Hace tiempo que tenemos buenos escaladores de imagen, pero hacer un buen escalador de vídeo es exponencialmente más difícil.
La superresolución de vídeo (VSR) es el proceso por el que se toman fotogramas individuales de un vídeo, se aumenta la resolución y el detalle y se encajan los fotogramas para recrear el vídeo.
Hacerlo bien implica resolver dos retos contradictorios. Los VSR actuales generan vídeos suaves y borrosos, o nítidos y con fallos.
VideoGigaGAN de Adobe amplía la muestra de vídeo borroso para producir un vídeo coherente temporalmente (transiciones de fotogramas suaves) y con detalles de alta frecuencia.
He aquí un ejemplo de lo que puede hacer VideoGigaGAN.
Adobe research abandona VideoGigaGAN
Permite aumentar la resolución de vídeo en 8x con detalles mejorados.
Ponencia en los comentarios 👇 pic.twitter.com/7uEiU7bYqw
- Kris Kashtanova (@icreatelife) 22 de abril de 2024
Como su nombre indica, el método de Adobe se basa en GigaGAN, una avanzada red generativa adversarial (GAN).
Los GAN son geniales para aumentar el tamaño de las imágenes, y GigaGAN es uno de los mejores en superresolución de imágenes. Entonces, ¿por qué no utilizar simplemente GigaGAN en cada fotograma para aumentar la escala de la imagen y luego juntarlos todos para hacer el vídeo?
Cuando los investigadores de Adobe lo intentaron, consiguieron una gran resolución de vídeo, pero el vídeo resultante era temporalmente incoherente y parpadeaba.
Al añadir capas temporales convolucionales y de atención al GigaGAN, se solucionó la incoherencia temporal, pero el parpadeo seguía siendo un problema.
VideoGigaGAN aborda esta cuestión separando los elementos de baja y alta frecuencia en cada fotograma y procesándolos de forma diferente.
El mapa de características de baja frecuencia se suaviza para eliminar los detalles de alta frecuencia, que pueden ser fuentes de ruido y parpadeo.
Gracias a las conexiones Skip, los detalles más sutiles de los componentes de alta frecuencia se conservan sin pasar por las capas intermedias del modelo, que de otro modo se perderían en el procesamiento.
Puede leer más sobre los detalles técnicos en Documento de Adobe.
En demos en GitHub de Adobe son muy impresionantes. Adobe no ha dado ninguna pista sobre la fecha de lanzamiento, pero esperemos que nos dejen utilizarlo pronto.
Imagina lo que una herramienta como ésta podría hacer por las imágenes de archivo históricas, las películas clásicas o incluso la conversión a HD de tus viejos programas de televisión favoritos.