OpenAI har presenterat Sora, en toppmodern text-till-video-modell (TTV) som genererar realistiska videor på upp till 60 sekunder från en textfråga från användaren.
Vi har sett stora framsteg inom AI-generering av video på senare tid. Förra månaden var vi glada när Google gav oss en demo av Lumiere, dess TTV-modell som genererar 5-sekunders videoklipp med utmärkt sammanhållning och rörelse.
Bara några veckor senare och redan nu får de imponerande demovideor som Sora genererar Googles Lumiere att se ganska pittoresk ut.
Sora genererar verklighetstrogen video som kan innehålla flera scener med simulerad kamerapanorering samtidigt som den följer komplexa instruktioner. Den kan också generera bilder, förlänga videor bakåt och framåt och generera en video med en bild som prompt.
En del av Soras imponerande prestanda ligger i saker som vi tar för givet när vi tittar på en video, men som är svåra för AI att producera.
Här är ett exempel på en video som Sora skapade utifrån uppmaningen: "En filmtrailer med äventyren för den 30-årige rymdmannen som bär en röd ullstickad motorcykelhjälm, blå himmel, salt öken, filmisk stil, inspelad på 35 mm film, levande färger."
https://youtu.be/twyhYQM9254
Det här korta klippet visar några av de viktigaste egenskaperna hos Sora som gör den till något alldeles extra.
- Frågeställningen var ganska komplex och den genererade videon följde den noga.
- Sora upprätthåller karaktärens koherens. Även när karaktären försvinner från en bildruta och dyker upp igen förblir karaktärens utseende konsekvent.
- Sora behåller bildpermanensen. Ett objekt i en scen bevaras i senare bildrutor vid panorering eller vid scenbyten.
- Den genererade videon visar en exakt förståelse för fysik och förändringar i miljön. Ljuset, skuggorna och fotavtrycken i saltpannan är bra exempel på detta.
Sora förstår inte bara vad orden i meddelandet betyder, utan även hur dessa objekt interagerar med varandra i den fysiska världen.
Här är ett annat bra exempel på den imponerande video som Sora kan generera.
https://youtu.be/g0jt6goVz04
Uppmaningen för den här videon var: "En elegant kvinna går längs en gata i Tokyo som är fylld av varm glödande neon och animerade stadsskyltar. Hon bär en svart skinnjacka, en lång röd klänning, svarta stövlar och en svart handväska. Hon bär solglasögon och rött läppstift. Hon går självsäkert och avslappnat. Gatan är fuktig och reflekterande, vilket skapar en spegeleffekt av de färgglada lamporna. Många fotgängare går omkring."
Ett steg närmare AGI
Vi må bli imponerade av videorna, men det är denna förståelse för den fysiska världen som OpenAI är särskilt entusiastiska över.
I Sora blogginlägg"Sora utgör grunden för modeller som kan förstå och simulera den verkliga världen, en förmåga som vi tror kommer att vara en viktig milstolpe för att uppnå AGI", säger bolaget.
Flera forskare anser att förkroppsligad AI är nödvändig för att uppnå artificiell allmän intelligens (AGI). Att integrera AI i en robot som kan känna av och utforska en fysisk miljö är ett sätt att uppnå detta, men det medför en rad praktiska utmaningar.
Sora tränades på en enorm mängd video- och bilddata, vilket enligt OpenAI är orsaken till de nya förmågor som modellen uppvisar när det gäller att simulera aspekter av människor, djur och miljöer från den fysiska världen.
OpenAI säger att Sora inte uttryckligen utbildades i 3D-objektens fysik, men att de nya förmågorna är "rena skalfenomen".
Det innebär att Sora så småningom skulle kunna användas för att exakt simulera en digital värld som en AI kan interagera med utan att den behöver förkroppsligas i en fysisk enhet som en robot.
På ett mer förenklat sätt är det detta som de kinesiska forskarna försöker uppnå med sina AI-robot småbarn som heter Tong Tong.
För tillfället får vi nöja oss med de demovideor som OpenAI har tillhandahållit. Sora görs endast tillgänglig för red teamers och vissa visuella konstnärer, designers och filmskapare för att få feedback och kontrollera modellens inriktning.
När Sora släpps offentligt, kanske vi får se SAG-AFTRA-anställda inom filmindustrin damma av sina strejkvaktsskyltar?