Google presenterer Lumiere, en diffusjonsmodell for tekst-til-video

Google Research presenterte Lumiere, en diffusjonsmodell for tekst-til-video som skaper bemerkelsesverdig realistiske videoer fra tekst- eller bildemeldinger.

Stillbildene som genereres av verktøy som Midt på reisen eller DALL-E er utrolige, men tekst-til-video (TTV) har forståelig nok sakket akterut og har vært mye mindre imponerende så langt.

TTV-modeller som de fra Pika Labs eller Stable Video Diffusion har kommet langt i løpet av de siste 12 månedene, men realismen og kontinuiteten i bevegelsene er fortsatt litt klønete.

Lumiere representerer et stort sprang innen TTV på grunn av en ny tilnærming til å generere video som er romlig og tidsmessig sammenhengende. Målet er med andre ord at scenene i hvert bilde skal være visuelt konsistente, og at bevegelsene skal være jevne.

Hva kan Lumiere gjøre?

Lumiere har en rekke videogenereringsfunksjoner, inkludert følgende

Tekst-til-video - Skriv inn en tekstmelding, og Lumiere genererer et videoklipp på 5 sekunder bestående av 80 bilder med 16 bilder per sekund.
Bilde-til-video - Lumiere tar utgangspunkt i et bilde og gjør det om til en video.
Stilisert generasjon - Et bilde kan brukes som stilreferanse. Lumiere bruker en tekstmelding til å generere en video i stil med referansebildet.
Stilisering av video - Lumiere kan redigere en kildevideo slik at den passer til en stilistisk tekstmelding.
Filmsekvenser - Velg et område i et stillbilde, og Lumiere vil animere den delen av bildet.
Video inpainting - Lumiere kan ta en maskert videoscene og male den for å fullføre videoen. Den kan også redigere kildevideoen ved å fjerne eller erstatte elementer i scenen.

Videoen nedenfor viser noen av de imponerende videoene Lumiere kan generere.

Hvordan gjør Lumiere det?

Eksisterende TTV-modeller har et kaskadeoppsett der en basismodell genererer en delmengde nøkkelbilder, og deretter bruker de en temporal superoppløsningsmodell (TSR) til å generere data for å fylle hullene mellom bildene.

Denne tilnærmingen er minneeffektiv, men når man prøver å fylle hullene mellom et subsamplet sett med nøkkelbilder, får man en video med tidsmessig inkonsistens, eller glitchy bevegelse. De lavoppløste bildene oppskaleres deretter ved hjelp av en romlig superoppløsningsmodell (SSR) på ikke-overlappende vinduer.

Lumiere har en annen tilnærming. Den bruker en Space-Time U-Net-arkitektur (STUNet) som lærer seg å nedsamplere signalet i både rom og tid, og behandler alle bildene samtidig.

Fordi Lumiere ikke bare sender et delsett av keyframes til en TSR, oppnår den globalt koherente bevegelser. For å få høyoppløselig video bruker Lumiere en SSR-modell på overlappende vinduer, og bruker MultiDiffusion til å kombinere prediksjonene til et koherent resultat.

Google Research gjennomførte en brukerstudie som viste at brukerne i overveldende grad foretrakk Lumiere-videoer fremfor andre TTV-modeller.

Brukerpreferanser for kvaliteten på tekst-til-videokvalitet, hvor godt videoen stemmer overens med tekstmeldingen, og bilde-til-videokvalitet. Kilde: Google Research: Google Research

Sluttresultatet blir kanskje bare et klipp på 5 sekunder, men realismen og de sammenhengende bildene og bevegelsene er bedre enn noe annet som er tilgjengelig i dag. De fleste andre TTV-løsninger genererer foreløpig bare 3-sekunders klipp.

Lumiere håndterer ikke sceneoverganger eller videoscener med flere opptak, men funksjonalitet for flere scener er helt sikkert på trappene.

I Lumiere forskningsoppgavebemerket Google at "det er en risiko for misbruk for å skape falskt eller skadelig innhold med vår teknologi".

Forhåpentligvis finner de en måte å effektivt vannmerke videoene sine på og unngå problemer med opphavsrett, slik at de kan slippe Lumiere slik at vi kan teste den.

Google presenterer Lumiere, en modell for tekst-til-video-diffusjon

Hva kan Lumiere gjøre?

Hvordan gjør Lumiere det?

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

Google presenterer Lumiere, en modell for tekst-til-video-diffusjon

Hva kan Lumiere gjøre?

Hvordan gjør Lumiere det?

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI