Google Research ha presentato Lumiere, un modello di diffusione da testo a video che crea video straordinariamente realistici a partire da messaggi di testo o immagini.
Le immagini fisse generate da strumenti come Viaggio intermedio o DALL-E sono incredibili, ma il text-to-video (TTV) è comprensibilmente rimasto indietro e finora è stato molto meno impressionante.
I modelli TTV come quelli di Pika Labs o Stable Video Diffusion hanno fatto molta strada negli ultimi 12 mesi, ma il realismo e la continuità del movimento sono ancora un po' goffi.
Lumiere rappresenta un grande passo avanti nel settore TTV grazie a un approccio innovativo alla generazione di video coerenti dal punto di vista spaziale e temporale. In altre parole, l'obiettivo è che le scene in ogni fotogramma rimangano visivamente coerenti e che i movimenti siano fluidi.
Cosa può fare Lumiere?
Lumiere dispone di una serie di funzionalità di generazione video, tra cui le seguenti:
- Da testo a video - Inserendo una richiesta di testo, Lumiere genera un videoclip di 5 secondi composto da 80 fotogrammi a 16 fotogrammi al secondo.
- Da immagine a video - Lumiere prende come spunto un'immagine e la trasforma in un video.
- Generazione stilizzata - È possibile utilizzare un'immagine come riferimento di stile. Lumiere utilizza una richiesta di testo per generare un video nello stile dell'immagine di riferimento.
- Stilizzazione video - Lumiere può modificare un video sorgente per adattarlo a una richiesta di testo stilistica.
- Cinemagraphs - Selezionando una regione in un'immagine fissa, Lumiere animerà quella parte dell'immagine.
- Video inpainting - Lumiere può prendere una scena video mascherata e dipingerla per completare il video. Può anche modificare il video sorgente rimuovendo o sostituendo elementi nella scena.
Il video qui sotto mostra alcuni degli impressionanti video che Lumiere può generare.
Come fa Lumiere?
I modelli TTV esistenti adottano un design a cascata in cui un modello di base genera un sottoinsieme di fotogrammi chiave e poi utilizzano un modello di super-risoluzione temporale (TSR) per generare i dati che riempiono gli spazi vuoti tra i fotogrammi.
Questo approccio è efficiente dal punto di vista della memoria, ma il tentativo di riempire gli spazi vuoti tra una serie di fotogrammi chiave sottocampionati produce un video con incoerenze temporali o movimenti discontinui. I fotogrammi a bassa risoluzione vengono quindi scalati utilizzando un modello di super-risoluzione spaziale (SSR) su finestre non sovrapposte.
Lumiere adotta un approccio diverso. Utilizza un'architettura Space-Time U-Net (STUNet) che impara a ricampionare il segnale sia nello spazio che nel tempo ed elabora tutti i fotogrammi contemporaneamente.
Poiché non si limita a passare un sottoinsieme di fotogrammi campione a un TSR, Lumiere ottiene un movimento coerente a livello globale. Per ottenere il video ad alta risoluzione, Lumiere applica un modello SSR su finestre sovrapposte e utilizza MultiDiffusion per combinare le previsioni in un risultato coerente.
Google Research ha condotto uno studio sugli utenti da cui è emerso che questi ultimi preferiscono nettamente i video Lumiere rispetto agli altri modelli di TTV.
Il risultato finale può essere solo un clip di 5 secondi, ma il realismo e la coerenza delle immagini e dei movimenti sono migliori di qualsiasi altra soluzione attualmente disponibile. La maggior parte delle altre soluzioni TTV genera per ora solo clip di 3 secondi.
Lumiere non gestisce le transizioni di scena o le scene video a più riprese, ma la funzionalità multi-scena è quasi certamente in programma.
Nel Carta di ricerca LumiereGoogle ha osservato che "esiste il rischio di un uso improprio per la creazione di contenuti falsi o dannosi con la nostra tecnologia".
Speriamo che trovino un modo efficace per filigranare i loro video ed evitare problemi di copyright, in modo da poter rilasciare Lumiere per metterlo alla prova.