I ricercatori di Adobe hanno presentato VideoGigaGAN, un modello di intelligenza artificiale generativa in grado di scalare i video sfocati in video nitidi e fluidi che appaiono fino a 8 volte più nitidi.
Da tempo disponiamo di ottimi upscaler di immagini, ma realizzare un buon upscaler video è esponenzialmente più difficile.
La super-risoluzione video (VSR) è il processo che consiste nel prendere i singoli fotogrammi di un video, aumentarne la risoluzione e i dettagli, e unire i fotogrammi per ricreare il video.
Per farlo bene occorre risolvere due problemi contrastanti. I VSR attuali generano video fluidi e sfocati, oppure nitidi e con problemi.
VideoGigaGAN di Adobe esegue il campionamento di video sfocati per produrre un video che sia coerente dal punto di vista temporale (transizioni fluide tra i fotogrammi) e con dettagli ad alta frequenza.
Ecco un esempio di cosa può fare VideoGigaGAN.
La ricerca Adobe abbandona VideoGigaGAN
Consente di effettuare un upsample dei video di 8 volte con dettagli migliorati.
Carta nei commenti 👇 pic.twitter.com/7uEiU7bYqw
- Kris Kashtanova (@icreatelife) 22 aprile 2024
Come suggerisce il nome, il metodo di Adobe si basa su GigaGAN, una rete generativa avversaria (GAN) avanzata.
Le GAN sono ottime per l'upsampling delle immagini e GigaGAN è una delle migliori per la super-risoluzione delle immagini. Quindi, perché non usare semplicemente GigaGAN su ogni fotogramma per aumentare la scala dell'immagine e poi metterli tutti insieme per creare il video?
Quando i ricercatori di Adobe ci hanno provato, hanno ottenuto un'ottima risoluzione video, ma il video risultante era temporalmente incoerente e sfarfallava.
Aggiungendo strati convoluzionali temporali e di attenzione al GigaGAN, l'incoerenza temporale è stata risolta, ma lo sfarfallio era ancora un problema.
VideoGigaGAN risolve questo problema separando gli elementi a bassa e ad alta frequenza in ogni fotogramma ed elaborandoli in modo diverso.
La mappa delle caratteristiche a bassa frequenza viene smussata per rimuovere i dettagli ad alta frequenza, che possono essere fonte di rumore e sfarfallio.
Utilizzando le connessioni Skip, i dettagli più fini delle componenti ad alta frequenza vengono mantenuti bypassando gli strati intermedi del modello che altrimenti andrebbero persi nell'elaborazione.
Per ulteriori informazioni sui dettagli tecnici, consultare il sito Il documento di Adobe.
Il demo su GitHub di Adobe sono davvero impressionanti. Adobe non ha accennato a una data di rilascio, ma speriamo che ce lo facciano usare presto.
Immaginate cosa potrebbe fare uno strumento del genere per i filmati storici d'archivio, i film classici o persino per l'upscaling dei vostri vecchi programmi televisivi preferiti in HD.