Google presenterar Lumiere, en modell för spridning av text till video

24 januari 2024

Google Research presenterade Lumiere, en diffusionsmodell för text-till-video som skapar anmärkningsvärt realistiska videor från text- eller bildmeddelanden.

De stillbilder som genereras av verktyg som Midjourney eller DALL-E är otroliga, men text-till-video (TTV) har förståeligt nog släpat efter och har varit mycket mindre imponerande hittills.

TTV-modeller som de från Pika Labs eller Stable Video Diffusion har kommit långt under de senaste 12 månaderna, men realismen och kontinuiteten i rörelsen är fortfarande lite klumpig.

Lumiere innebär ett stort steg framåt inom TTV tack vare ett nytt sätt att generera video som är rumsligt och tidsmässigt sammanhängande. Med andra ord är målet att scenerna i varje bildruta ska vara visuellt konsekventa och att rörelserna ska vara mjuka.

Vad kan Lumiere göra?

Lumiere har en rad olika funktioner för videogenerering, bland annat följande:

  • Text-till-video - Ange en textfråga och Lumiere genererar ett 5 sekunder långt videoklipp bestående av 80 bilder med 16 bilder per sekund.
  • Bild-till-video - Lumiere tar en bild som utgångspunkt och förvandlar den till en video.
  • Stylized generation - En bild kan användas som stilreferens. Lumiere använder en textprompt för att generera en video i samma stil som referensbilden.
  • Stilisering av video - Lumiere kan redigera en källvideo så att den matchar ett stilistiskt textmeddelande.
  • Filmsekvenser - Välj ett område i en stillbild så animerar Lumiere den delen av bilden.
  • Inmålning av video - Lumiere kan ta en maskerad videoscen och måla in den för att slutföra videon. Den kan också redigera källvideon genom att ta bort eller ersätta element i scenen.

Videon nedan visar några av de imponerande videor som Lumiere kan generera.

Hur gör Lumiere det?

Befintliga TTV-modeller har en kaskaddesign där en basmodell genererar en delmängd nyckelbilder och sedan använder de en TSR-modell (temporal super-resolution) för att generera data för att fylla luckorna mellan bilderna.

Den här metoden är minneseffektiv, men om man försöker fylla luckorna mellan en subsamplad uppsättning keyframes resulterar det i en video med temporal inkonsekvens eller ojämn rörelse. De lågupplösta bildrutorna skalas sedan upp med hjälp av en SSR-modell (spatial super-resolution) på icke-överlappande fönster.

Lumiere har ett annat tillvägagångssätt. Den använder en STUNet-arkitektur (Space-Time U-Net) som lär sig att nedsampla signalen i både tid och rum och bearbetar alla bildrutor på en gång.

Eftersom Lumiere inte bara skickar en delmängd av keyframes till en TSR får man en globalt sammanhängande rörelse. För att få fram den högupplösta videon tillämpar Lumiere en SSR-modell på överlappande fönster och använder MultiDiffusion för att kombinera förutsägelserna till ett sammanhängande resultat.

Google Research gjorde en användarstudie som visade att användarna överväldigande föredrog Lumiere-videor framför andra TTV-modeller.

Användarnas preferenser för kvaliteten på text-till-videokvaliteten, hur väl videon stämde överens med textuppmaningen och bild-till-videokvaliteten. Källa: Google Research: Google Research

Slutresultatet kanske bara blir ett 5-sekunders klipp, men realismen och de sammanhängande bilderna och rörelserna är bättre än något annat som finns tillgängligt för närvarande. De flesta andra TTV-lösningar genererar bara 3-sekunders klipp för tillfället.

Lumiere hanterar inte scenövergångar eller videoscener med flera tagningar, men längre funktionalitet för flera scener är nästan säkert på gång.

I Lumiere forskningsrapportnoterade Google att "det finns en risk för missbruk för att skapa falskt eller skadligt innehåll med vår teknik".

Förhoppningsvis hittar de ett sätt att effektivt vattenstämpla sina videor och undvika upphovsrättsproblem så att de kan släppa Lumiere så att vi kan testa det.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar