Google Research hat Lumiere vorgestellt, ein Text-zu-Video-Diffusionsmodell, das aus Text- oder Bildanweisungen bemerkenswert realistische Videos erstellt.
Die Standbilder, die von Tools wie Midjourney oder DALL-E sind unglaublich, aber Text-to-Video (TTV) hinkt verständlicherweise hinterher und ist bisher weit weniger beeindruckend gewesen.
TTV-Modelle wie die von Pika Labs oder Stable Video Diffusion haben in den letzten 12 Monaten große Fortschritte gemacht, aber der Realismus und die Kontinuität der Bewegung sind immer noch ein wenig unausgereift.
Lumiere stellt einen großen Sprung im TTV dar, da es einen neuen Ansatz zur Erzeugung von räumlich und zeitlich kohärenten Videos verfolgt. Mit anderen Worten, das Ziel ist, dass die Szenen in jedem Bild visuell konsistent bleiben und die Bewegungen flüssig sind.
Was kann Lumiere tun?
Lumiere verfügt über eine Reihe von Funktionen zur Videoerstellung, darunter die folgenden:
- Text zu Video - Geben Sie eine Texteingabe ein, und Lumiere generiert einen 5-sekündigen Videoclip, der aus 80 Bildern mit 16 Bildern pro Sekunde besteht.
- Bild-zu-Video - Lumiere nimmt ein Bild als Aufforderung und verwandelt es in ein Video.
- Stilisierte Generation - Ein Bild kann als Stilreferenz verwendet werden. Lumiere verwendet eine Texteingabeaufforderung, um ein Video im Stil des Referenzbildes zu erstellen.
- Video-Stylisierung - Lumiere kann ein Quellvideo so bearbeiten, dass es einer stilistischen Textaufforderung entspricht.
- Kinematografien - Wählen Sie einen Bereich in einem Standbild aus, und Lumiere wird diesen Teil des Bildes animieren.
- Video-Übermalung - Lumiere kann eine maskierte Videoszene nehmen und sie übermalen, um das Video zu vervollständigen. Es kann auch Quellvideos bearbeiten, indem es Elemente in der Szene entfernt oder ersetzt.
Das folgende Video zeigt einige der beeindruckenden Videos, die Lumiere erzeugen kann.
Wie macht Lumiere das?
Bestehende TTV-Modelle verwenden ein kaskadiertes Design, bei dem ein Basismodell eine Untergruppe von Keyframes generiert und dann ein zeitliches Super-Resolution-Modell (TSR) verwendet wird, um Daten zu generieren, die die Lücken zwischen den Frames füllen.
Dieser Ansatz ist speichereffizient, aber der Versuch, die Lücken zwischen einem unterabgetasteten Satz von Keyframes zu füllen, führt zu einem Video mit zeitlicher Inkonsistenz oder unruhiger Bewegung. Die niedrig aufgelösten Frames werden dann mit einem räumlichen Super-Resolution-Modell (SSR) in nicht überlappenden Fenstern hochskaliert.
Lumiere verfolgt einen anderen Ansatz. Es verwendet eine Space-Time U-Net (STUNet)-Architektur, die lernt, das Signal sowohl räumlich als auch zeitlich herunterzurechnen und alle Bilder auf einmal zu verarbeiten.
Da Lumiere nicht nur eine Teilmenge von Beispiel-Keyframes an eine TSR weitergibt, erzielt es eine global kohärente Bewegung. Um das hochauflösende Video zu erhalten, wendet Lumiere ein SSR-Modell auf sich überlappende Fenster an und kombiniert die Vorhersagen mit MultiDiffusion zu einem kohärenten Ergebnis.
Google Research führte eine Nutzerstudie durch, die zeigte, dass die Nutzer Lumiere-Videos gegenüber anderen TTV-Modellen mit überwältigender Mehrheit bevorzugten.
Das Endergebnis ist zwar nur ein 5-Sekunden-Clip, aber der Realismus und die kohärenten Bilder und Bewegungen sind besser als alles andere, was derzeit verfügbar ist. Die meisten anderen TTV-Lösungen erzeugen derzeit nur 3-Sekunden-Clips.
Lumiere beherrscht keine Szenenübergänge oder Videoszenen mit mehreren Aufnahmen, aber längere Funktionen für mehrere Szenen sind mit Sicherheit in Planung.
In der Lumiere ForschungspapierGoogle wies darauf hin, dass "ein Risiko des Missbrauchs besteht, um gefälschte oder schädliche Inhalte mit unserer Technologie zu erstellen".
Hoffentlich finden sie einen Weg, ihre Videos mit Wasserzeichen zu versehen und Urheberrechtsprobleme zu vermeiden, damit sie Lumiere veröffentlichen können, damit wir es auf Herz und Nieren prüfen können.