Google Research onthulde Lumiere, een tekst-naar-video diffusiemodel dat opmerkelijk realistische video's maakt van tekst- of beeldaanwijzingen.
De stilstaande beelden die worden gegenereerd door tools zoals Reis halverwege of DALL-E zijn ongelooflijk, maar tekst-naar-video (TTV) is begrijpelijkerwijs achtergebleven en tot nu toe een stuk minder indrukwekkend.
TTV-modellen zoals die van Pika Labs of Stable Video Diffusion hebben de afgelopen 12 maanden een lange weg afgelegd, maar het realisme en de continuïteit van de beweging zijn nog steeds een beetje onhandig.
Lumiere betekent een grote sprong voorwaarts in TTV dankzij een nieuwe benadering om video te genereren die ruimtelijk en temporeel coherent is. Met andere woorden, het doel is dat de scènes in elk frame visueel consistent blijven en de bewegingen vloeiend zijn.
Wat kan Lumiere doen?
Lumiere heeft een reeks functies voor het genereren van video, waaronder het volgende:
- Tekst-naar-video - Voer een tekstprompt in en Lumiere genereert een videoclip van 5 seconden die bestaat uit 80 frames met 16 frames per seconde.
- Beeld-naar-video - Lumiere gebruikt een afbeelding als geheugensteuntje en maakt er een video van.
- Gestileerde generatie - Een afbeelding kan worden gebruikt als stijlreferentie. Lumiere gebruikt een tekstprompt om een video te genereren in de stijl van de referentieafbeelding.
- Videostylisatie - Lumiere kan een bronvideo bewerken zodat deze overeenkomt met een stilistische tekstmelding.
- Cinemagraphs - Selecteer een gebied in een stilstaand beeld en Lumiere animeert dat deel van het beeld.
- Video inkleuren - Lumiere kan een gemaskeerde videoscène nemen en deze inkleuren om de video te voltooien. Het kan ook bronvideo bewerken door elementen in de scène te verwijderen of te vervangen.
De onderstaande video laat een aantal van de indrukwekkende video's zien die Lumiere kan genereren.
Hoe doet Lumiere dat?
Bestaande TTV-modellen gebruiken een trapsgewijs ontwerp waarbij een basismodel een subset van keyframes genereert en vervolgens een temporal super-resolution (TSR)-model gebruikt om gegevens te genereren om de gaten tussen frames op te vullen.
Deze aanpak is geheugenefficiënt, maar als je probeert om gaten te vullen tussen een subsampled set van keyframes resulteert dit in een video met temporele inconsistentie, of glitchy beweging. De lage-resolutieframes worden dan opgeschaald met behulp van een ruimtelijk superresolutiemodel (SSR) op niet-overlappende vensters.
Lumiere hanteert een andere benadering. Het maakt gebruik van een Space-Time U-Net (STUNet) architectuur die leert om het signaal te downsamplen in zowel ruimte als tijd en verwerkt alle frames in één keer.
Omdat Lumiere niet slechts een subset van voorbeeld keyframes doorgeeft aan een TSR, bereikt het een globaal coherente beweging. Om de video met hoge resolutie te verkrijgen, past Lumiere een SSR-model toe op overlappende vensters en gebruikt MultiDiffusion om de voorspellingen te combineren tot een coherent resultaat.
Google Research deed een gebruikersonderzoek waaruit bleek dat gebruikers een overweldigende voorkeur hadden voor Lumiere-video's in vergelijking met andere TTV-modellen.
Het eindresultaat mag dan wel maar een clip van 5 seconden zijn, maar het realisme en de coherente beelden en bewegingen zijn beter dan alles wat momenteel beschikbaar is. De meeste andere TTV-oplossingen genereren op dit moment slechts clips van 3 seconden.
Lumiere kan geen scèneovergangen of multi-shot videoscènes aan, maar langere functionaliteit voor multi-scènes zit vrijwel zeker in de pijplijn.
In de Lumiere onderzoeksverslagGoogle merkte op dat "er een risico is op misbruik voor het maken van valse of schadelijke inhoud met onze technologie."
Hopelijk vinden ze een manier om hun video's van een watermerk te voorzien en problemen met auteursrechten te voorkomen, zodat ze Lumiere kunnen uitbrengen zodat wij het kunnen uitproberen.