Adobes forskare presenterade VideoGigaGAN, en generativ AI-modell som kan skala upp suddiga videor till skarp, jämn video som ser upp till 8 gånger skarpare ut.
Vi har haft riktigt bra uppskalare för bilder ett tag nu, men att göra en bra uppskalare för video är exponentiellt mycket svårare.
Video Super Resolution (VSR) är en process där man tar enskilda bildrutor i en video, uppgraderar upplösningen och detaljerna och sätter ihop bildrutorna för att återskapa videon.
För att göra detta på ett bra sätt måste man lösa två motstridiga utmaningar. Nuvarande VSR:er genererar antingen video som är jämn och suddig eller skarp och ojämn.
Adobes VideoGigaGAN uppsamplar suddig video för att producera en video som både är tidsmässigt konsekvent (mjuka bildövergångar) och har högfrekventa detaljer.
Här är ett exempel på vad VideoGigaGAN kan göra.
Adobes forskning minskar VideoGigaGAN
Det gör att du kan uppsamla video med 8x med förbättrade detaljer.
Papper i kommentarer 👇 pic.twitter.com/7uEiU7bYqw
- Kris Kashtanova (@icreatelife) 22 april 2024
Som namnet antyder förlitar sig Adobes metod på GigaGAN, ett avancerat generativt adversarial network (GAN).
GAN är bra på att uppgradera bilder, och GigaGAN är en av de bästa på superupplösning av bilder. Så varför inte helt enkelt använda GigaGAN på varje bildruta för att skala upp bilden och sedan sätta ihop dem till en video?
När Adobes forskare testade detta fick de bra videoupplösning, men den resulterande videon var tidsmässigt inkonsekvent och flimrade.
Genom att lägga till temporala konvolutions- och uppmärksamhetsskikt till GigaGAN kunde den temporala inkonsekvensen åtgärdas, men flimret var fortfarande ett problem.
VideoGigaGAN löser detta genom att separera lågfrekventa och högfrekventa element i varje bildruta och bearbeta dessa på olika sätt.
Den lågfrekventa funktionskartan jämnas ut för att ta bort högfrekventa detaljer, som kan vara källor till brus och flimmer.
Genom att använda Skip connections behålls de finare detaljerna i högfrekventa komponenter genom att kringgå de mellersta lagren i modellen som annars skulle gå förlorade under bearbetningen.
Du kan läsa mer om de tekniska detaljerna i Adobes dokument.
Den demos på Adobes GitHub är mycket imponerande. Adobe har inte antytt något lanseringsdatum men låt oss hoppas att de låter oss använda det snart.
Föreställ dig vad ett sådant här verktyg skulle kunna göra för historiska arkivbilder, klassiska filmer eller till och med uppskalning av dina gamla favorit-TV-program till HD.