Google presenta Lumiere, un modello di diffusione da testo a video

24 gennaio 2024

Google Research ha presentato Lumiere, un modello di diffusione da testo a video che crea video straordinariamente realistici a partire da messaggi di testo o immagini.

Le immagini fisse generate da strumenti come Viaggio intermedio o DALL-E sono incredibili, ma il text-to-video (TTV) è comprensibilmente rimasto indietro e finora è stato molto meno impressionante.

I modelli TTV come quelli di Pika Labs o Stable Video Diffusion hanno fatto molta strada negli ultimi 12 mesi, ma il realismo e la continuità del movimento sono ancora un po' goffi.

Lumiere rappresenta un grande passo avanti nel settore TTV grazie a un approccio innovativo alla generazione di video coerenti dal punto di vista spaziale e temporale. In altre parole, l'obiettivo è che le scene in ogni fotogramma rimangano visivamente coerenti e che i movimenti siano fluidi.

Cosa può fare Lumiere?

Lumiere dispone di una serie di funzionalità di generazione video, tra cui le seguenti:

  • Da testo a video - Inserendo una richiesta di testo, Lumiere genera un videoclip di 5 secondi composto da 80 fotogrammi a 16 fotogrammi al secondo.
  • Da immagine a video - Lumiere prende come spunto un'immagine e la trasforma in un video.
  • Generazione stilizzata - È possibile utilizzare un'immagine come riferimento di stile. Lumiere utilizza una richiesta di testo per generare un video nello stile dell'immagine di riferimento.
  • Stilizzazione video - Lumiere può modificare un video sorgente per adattarlo a una richiesta di testo stilistica.
  • Cinemagraphs - Selezionando una regione in un'immagine fissa, Lumiere animerà quella parte dell'immagine.
  • Video inpainting - Lumiere può prendere una scena video mascherata e dipingerla per completare il video. Può anche modificare il video sorgente rimuovendo o sostituendo elementi nella scena.

Il video qui sotto mostra alcuni degli impressionanti video che Lumiere può generare.

Come fa Lumiere?

I modelli TTV esistenti adottano un design a cascata in cui un modello di base genera un sottoinsieme di fotogrammi chiave e poi utilizzano un modello di super-risoluzione temporale (TSR) per generare i dati che riempiono gli spazi vuoti tra i fotogrammi.

Questo approccio è efficiente dal punto di vista della memoria, ma il tentativo di riempire gli spazi vuoti tra una serie di fotogrammi chiave sottocampionati produce un video con incoerenze temporali o movimenti discontinui. I fotogrammi a bassa risoluzione vengono quindi scalati utilizzando un modello di super-risoluzione spaziale (SSR) su finestre non sovrapposte.

Lumiere adotta un approccio diverso. Utilizza un'architettura Space-Time U-Net (STUNet) che impara a ricampionare il segnale sia nello spazio che nel tempo ed elabora tutti i fotogrammi contemporaneamente.

Poiché non si limita a passare un sottoinsieme di fotogrammi campione a un TSR, Lumiere ottiene un movimento coerente a livello globale. Per ottenere il video ad alta risoluzione, Lumiere applica un modello SSR su finestre sovrapposte e utilizza MultiDiffusion per combinare le previsioni in un risultato coerente.

Google Research ha condotto uno studio sugli utenti da cui è emerso che questi ultimi preferiscono nettamente i video Lumiere rispetto agli altri modelli di TTV.

Le preferenze degli utenti sulla qualità del testo e del video, sull'allineamento del video con il testo richiesto e sulla qualità dell'immagine e del video. Fonte: Ricerca Google

Il risultato finale può essere solo un clip di 5 secondi, ma il realismo e la coerenza delle immagini e dei movimenti sono migliori di qualsiasi altra soluzione attualmente disponibile. La maggior parte delle altre soluzioni TTV genera per ora solo clip di 3 secondi.

Lumiere non gestisce le transizioni di scena o le scene video a più riprese, ma la funzionalità multi-scena è quasi certamente in programma.

Nel Carta di ricerca LumiereGoogle ha osservato che "esiste il rischio di un uso improprio per la creazione di contenuti falsi o dannosi con la nostra tecnologia".

Speriamo che trovino un modo efficace per filigranare i loro video ed evitare problemi di copyright, in modo da poter rilasciare Lumiere per metterlo alla prova.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni