Google Research afslørede Lumiere, en tekst-til-video-diffusionsmodel, der skaber bemærkelsesværdigt realistiske videoer ud fra tekst- eller billedbeskeder.
De stillbilleder, der genereres af værktøjer som Midt på rejsen eller DALL-E er utrolige, men tekst-til-video (TTV) har forståeligt nok haltet bagefter og har været meget mindre imponerende indtil videre.
TTV-modeller som dem fra Pika Labs eller Stable Video Diffusion er kommet langt i løbet af de sidste 12 måneder, men realismen og kontinuiteten i bevægelserne er stadig lidt klodset.
Lumiere repræsenterer et stort spring inden for TTV på grund af en ny tilgang til at generere video, der er rumligt og tidsmæssigt sammenhængende. Med andre ord er målet, at scenerne i hvert billede forbliver visuelt konsistente, og at bevægelserne er jævne.
Hvad kan Lumiere gøre?
Lumiere har en række videogenereringsfunktioner, herunder følgende:
- Tekst til video - Indtast en tekstprompt, og Lumiere genererer et 5-sekunders videoklip bestående af 80 billeder med 16 billeder i sekundet.
- Billede-til-video - Lumiere tager et billede som udgangspunkt og laver det om til en video.
- Stiliseret generation - Et billede kan bruges som stilreference. Lumiere bruger en tekstprompt til at generere en video i stil med referencebilledet.
- Stilisering af video - Lumiere kan redigere en kildevideo, så den passer til en stilistisk tekstprompt.
- Filmsekvenser - Vælg et område i et stillbillede, og Lumiere vil animere den del af billedet.
- Video-inpainting - Lumiere kan tage en maskeret videoscene og farvelægge den for at færdiggøre videoen. Den kan også redigere kildevideoen ved at fjerne eller udskifte elementer i scenen.
Videoen nedenfor viser nogle af de imponerende videoer, Lumiere kan generere.
Hvordan gør Lumiere det?
Eksisterende TTV-modeller anvender et kaskadedesign, hvor en basismodel genererer en delmængde af keyframes, og derefter bruger de en TSR-model (temporal super-resolution) til at generere data til at udfylde hullerne mellem frames.
Denne tilgang er hukommelseseffektiv, men forsøget på at udfylde hullerne mellem et subsamplet sæt keyframes resulterer i en video med tidsmæssig uoverensstemmelse eller glitchy bevægelse. Billederne med lav opløsning opskaleres derefter ved hjælp af en rumlig superopløsningsmodel (SSR) på ikke-overlappende vinduer.
Lumiere har en anden tilgang. Den bruger en STUNet-arkitektur (Space-Time U-Net), som lærer at downsample signalet i både rum og tid og behandler alle billederne på én gang.
Fordi den ikke bare sender en delmængde af keyframes til en TSR, opnår Lumiere en globalt sammenhængende bevægelse. For at opnå video i høj opløsning anvender Lumiere en SSR-model på overlappende vinduer og bruger MultiDiffusion til at kombinere forudsigelserne til et sammenhængende resultat.
Google Research lavede en brugerundersøgelse, der viste, at brugerne i overvældende grad foretrak Lumiere-videoer frem for andre TTV-modeller.
Slutresultatet er måske kun et klip på 5 sekunder, men realismen og de sammenhængende billeder og bevægelser er bedre end noget andet, der er tilgængeligt i øjeblikket. De fleste andre TTV-løsninger genererer indtil videre kun klip på 3 sekunder.
Lumiere håndterer ikke sceneovergange eller videoscener med flere optagelser, men længere multiscenefunktionalitet er næsten helt sikkert på vej.
I Lumiere research paperbemærkede Google, at "der er risiko for misbrug til at skabe falsk eller skadeligt indhold med vores teknologi."
Forhåbentlig finder de en måde, hvorpå de effektivt kan vandmærke deres videoer og undgå copyright-problemer, så de kan frigive Lumiere, så vi kan prøve den af.