Google stellt Lumiere vor, ein Modell zur Verbreitung von Text in Videos

Januar 24, 2024

Google Research hat Lumiere vorgestellt, ein Text-zu-Video-Diffusionsmodell, das aus Text- oder Bildanweisungen bemerkenswert realistische Videos erstellt.

Die Standbilder, die von Tools wie Midjourney oder DALL-E sind unglaublich, aber Text-to-Video (TTV) hinkt verständlicherweise hinterher und ist bisher weit weniger beeindruckend gewesen.

TTV-Modelle wie die von Pika Labs oder Stable Video Diffusion haben in den letzten 12 Monaten große Fortschritte gemacht, aber der Realismus und die Kontinuität der Bewegung sind immer noch ein wenig unausgereift.

Lumiere stellt einen großen Sprung im TTV dar, da es einen neuen Ansatz zur Erzeugung von räumlich und zeitlich kohärenten Videos verfolgt. Mit anderen Worten, das Ziel ist, dass die Szenen in jedem Bild visuell konsistent bleiben und die Bewegungen flüssig sind.

Was kann Lumiere tun?

Lumiere verfügt über eine Reihe von Funktionen zur Videoerstellung, darunter die folgenden:

  • Text zu Video - Geben Sie eine Texteingabe ein, und Lumiere generiert einen 5-sekündigen Videoclip, der aus 80 Bildern mit 16 Bildern pro Sekunde besteht.
  • Bild-zu-Video - Lumiere nimmt ein Bild als Aufforderung und verwandelt es in ein Video.
  • Stilisierte Generation - Ein Bild kann als Stilreferenz verwendet werden. Lumiere verwendet eine Texteingabeaufforderung, um ein Video im Stil des Referenzbildes zu erstellen.
  • Video-Stylisierung - Lumiere kann ein Quellvideo so bearbeiten, dass es einer stilistischen Textaufforderung entspricht.
  • Kinematografien - Wählen Sie einen Bereich in einem Standbild aus, und Lumiere wird diesen Teil des Bildes animieren.
  • Video-Übermalung - Lumiere kann eine maskierte Videoszene nehmen und sie übermalen, um das Video zu vervollständigen. Es kann auch Quellvideos bearbeiten, indem es Elemente in der Szene entfernt oder ersetzt.

Das folgende Video zeigt einige der beeindruckenden Videos, die Lumiere erzeugen kann.

Wie macht Lumiere das?

Bestehende TTV-Modelle verwenden ein kaskadiertes Design, bei dem ein Basismodell eine Untergruppe von Keyframes generiert und dann ein zeitliches Super-Resolution-Modell (TSR) verwendet wird, um Daten zu generieren, die die Lücken zwischen den Frames füllen.

Dieser Ansatz ist speichereffizient, aber der Versuch, die Lücken zwischen einem unterabgetasteten Satz von Keyframes zu füllen, führt zu einem Video mit zeitlicher Inkonsistenz oder unruhiger Bewegung. Die niedrig aufgelösten Frames werden dann mit einem räumlichen Super-Resolution-Modell (SSR) in nicht überlappenden Fenstern hochskaliert.

Lumiere verfolgt einen anderen Ansatz. Es verwendet eine Space-Time U-Net (STUNet)-Architektur, die lernt, das Signal sowohl räumlich als auch zeitlich herunterzurechnen und alle Bilder auf einmal zu verarbeiten.

Da Lumiere nicht nur eine Teilmenge von Beispiel-Keyframes an eine TSR weitergibt, erzielt es eine global kohärente Bewegung. Um das hochauflösende Video zu erhalten, wendet Lumiere ein SSR-Modell auf sich überlappende Fenster an und kombiniert die Vorhersagen mit MultiDiffusion zu einem kohärenten Ergebnis.

Google Research führte eine Nutzerstudie durch, die zeigte, dass die Nutzer Lumiere-Videos gegenüber anderen TTV-Modellen mit überwältigender Mehrheit bevorzugten.

Präferenzen der Nutzer hinsichtlich der Qualität der Text-zu-Video-Qualität, der Übereinstimmung des Videos mit der Textaufforderung und der Bild-zu-Video-Video-Qualität. Quelle: Google-Forschung

Das Endergebnis ist zwar nur ein 5-Sekunden-Clip, aber der Realismus und die kohärenten Bilder und Bewegungen sind besser als alles andere, was derzeit verfügbar ist. Die meisten anderen TTV-Lösungen erzeugen derzeit nur 3-Sekunden-Clips.

Lumiere beherrscht keine Szenenübergänge oder Videoszenen mit mehreren Aufnahmen, aber längere Funktionen für mehrere Szenen sind mit Sicherheit in Planung.

In der Lumiere ForschungspapierGoogle wies darauf hin, dass "ein Risiko des Missbrauchs besteht, um gefälschte oder schädliche Inhalte mit unserer Technologie zu erstellen".

Hoffentlich finden sie einen Weg, ihre Videos mit Wasserzeichen zu versehen und Urheberrechtsprobleme zu vermeiden, damit sie Lumiere veröffentlichen können, damit wir es auf Herz und Nieren prüfen können.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen