OpenAI hat Sora vorgestellt, ein hochmodernes Text-to-Video (TTV)-Modell, das realistische Videos von bis zu 60 Sekunden Länge aus einer Texteingabe des Benutzers erzeugt.
Wir haben in letzter Zeit große Fortschritte bei der KI-Videoproduktion gesehen. Letzten Monat waren wir begeistert, als Google uns eine Demo von Lumieresein TTV-Modell, das 5-Sekunden-Videoclips mit hervorragender Kohärenz und Bewegung erzeugt.
Nur wenige Wochen später lassen die beeindruckenden Demovideos von Sora Googles Lumiere schon ganz schön altbacken aussehen.
Sora erzeugt realitätsnahe Videos, die mehrere Szenen mit simulierten Kameraschwenks enthalten können, während sie sich eng an komplexe Eingabeaufforderungen halten. Es kann auch Bilder erzeugen, Videos vor- und zurückspulen und ein Video mit einem Bild als Eingabeaufforderung erzeugen.
Ein Teil von Soras beeindruckender Leistung liegt in Dingen, die wir beim Betrachten eines Videos für selbstverständlich halten, die aber für eine KI nur schwer zu realisieren sind.
Hier ist ein Beispiel für ein Video, das Sora anhand der Aufforderung erstellt hat: "Ein Filmtrailer mit den Abenteuern eines 30-jährigen Mannes aus dem Weltraum, der einen roten Wollstrick-Motorradhelm trägt, blauer Himmel, Salzwüste, Filmstil, gedreht auf 35-mm-Film, lebendige Farben."
https://youtu.be/twyhYQM9254
Dieser kurze Clip zeigt einige der wichtigsten Merkmale von Sora, die es zu etwas ganz Besonderem machen.
- Die Aufgabenstellung war ziemlich komplex, und das erstellte Video hielt sich eng an sie.
- Sora behält die Kohärenz des Charakters bei. Selbst wenn die Figur aus einem Bild verschwindet und wieder auftaucht, bleibt das Aussehen der Figur konsistent.
- Sora behält die Bildpermanenz bei. Ein Objekt in einer Szene wird beim Schwenken oder bei Szenenwechseln in späteren Bildern beibehalten.
- Das erstellte Video zeigt ein genaues Verständnis der Physik und der Veränderungen in der Umgebung. Die Beleuchtung, die Schatten und die Fußabdrücke in der Salzpfanne sind gute Beispiele dafür.
Sora versteht nicht nur, was die Wörter in der Aufforderung bedeuten, sondern auch, wie diese Objekte in der physischen Welt miteinander interagieren.
Hier ist ein weiteres großartiges Beispiel für die beeindruckenden Videos, die Sora erstellen kann.
https://youtu.be/g0jt6goVz04
Die Aufforderung für dieses Video lautete: "Eine stilvolle Frau geht eine Straße in Tokio entlang, die mit warm leuchtendem Neon und animierten Stadtschildern gefüllt ist. Sie trägt eine schwarze Lederjacke, ein langes rotes Kleid und schwarze Stiefel und hat eine schwarze Handtasche dabei. Sie trägt eine Sonnenbrille und roten Lippenstift. Sie geht selbstbewusst und lässig. Die Straße ist feucht und reflektierend, was einen Spiegeleffekt der bunten Lichter erzeugt. Viele Fußgänger laufen umher."
Ein Schritt näher zum AGI
Wir mögen von den Videos überwältigt sein, aber es ist dieses Verständnis der physischen Welt, das OpenAI besonders begeistert.
In der Sora Blogbeitrag"Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können, eine Fähigkeit, von der wir glauben, dass sie ein wichtiger Meilenstein für die Verwirklichung von AGI sein wird", so das Unternehmen.
Mehrere Forscher sind der Ansicht, dass verkörperte KI notwendig ist, um künstliche allgemeine Intelligenz (AGI) zu erreichen. Die Einbettung von KI in einen Roboter, der eine physische Umgebung wahrnehmen und erforschen kann, ist eine Möglichkeit, dies zu erreichen, die jedoch mit einer Reihe von praktischen Herausforderungen verbunden ist.
Sora wurde mit einer riesigen Menge an Video- und Bilddaten trainiert, was laut OpenAI für die emergenten Fähigkeiten des Modells bei der Simulation von Menschen, Tieren und Umgebungen aus der realen Welt verantwortlich ist.
OpenAI sagt, dass Sora nicht explizit auf die Physik von 3D-Objekten trainiert wurde, sondern dass die entstehenden Fähigkeiten "reine Phänomene des Maßstabs" sind.
Dies bedeutet, dass Sora schließlich dazu verwendet werden könnte, eine digitale Welt zu simulieren, mit der eine KI interagieren könnte, ohne dass sie in einem physischen Gerät wie einem Roboter verkörpert sein muss.
Vereinfacht ausgedrückt, ist dies das, was die chinesischen Forscher mit ihrer AI-Roboter-Kleinkind namens Tong Tong.
Im Moment müssen wir uns mit den von OpenAI zur Verfügung gestellten Demo-Videos zufrieden geben. Sora wird nur Red Teamern und einigen visuellen Künstlern, Designern und Filmemachern zur Verfügung gestellt, um Feedback zu erhalten und die Ausrichtung des Modells zu überprüfen.
Könnte es sein, dass die SAG-AFTRA-Filmbeschäftigten ihre Streikpostenschilder abstauben, sobald Sora veröffentlicht wird?