OpenAI har afsløret Sora, en avanceret tekst-til-video-model (TTV), der genererer realistiske videoer på op til 60 sekunder ud fra en brugertekst.
Vi har set store fremskridt inden for AI-videogenerering på det seneste. I sidste måned var vi begejstrede, da Google gav os en demo af LumiereTTV-modellen, der genererer 5-sekunders videoklip med fremragende sammenhæng og bevægelse.
Bare et par uger senere, og allerede nu får de imponerende demovideoer fra Sora Googles Lumiere til at se ret gammeldags ud.
Sora genererer video i høj kvalitet, der kan indeholde flere scener med simuleret kamerapanorering, mens den nøje følger komplekse instruktioner. Den kan også generere billeder, forlænge videoer baglæns og forlæns og generere en video ved hjælp af et billede som prompt.
Nogle af Soras imponerende præstationer ligger i ting, vi tager for givet, når vi ser en video, men som er vanskelige for AI at frembringe.
Her er et eksempel på en video, som Sora genererede ud fra opgaven: "En filmtrailer med eventyret om den 30-årige rummand iført en rød uldstrikket motorcykelhjelm, blå himmel, saltørken, filmisk stil, optaget på 35 mm film, levende farver."
https://youtu.be/twyhYQM9254
Dette korte klip viser nogle af de vigtigste funktioner i Sora, som gør den til noget helt særligt.
- Opgaven var ret kompleks, og den genererede video fulgte den nøje.
- Sora bevarer karakterens sammenhæng. Selv når figuren forsvinder ud af en ramme og dukker op igen, forbliver figurens udseende konsistent.
- Sora bevarer billedets permanens. Et objekt i en scene bevares i senere billeder, mens der panoreres eller under sceneskift.
- Den genererede video afslører en nøjagtig forståelse af fysik og ændringer i miljøet. Lyset, skyggerne og fodsporene i saltpanden er gode eksempler på dette.
Sora forstår ikke bare, hvad ordene i beskeden betyder, den forstår også, hvordan disse objekter interagerer med hinanden i den fysiske verden.
Her er endnu et godt eksempel på den imponerende video, Sora kan skabe.
https://youtu.be/g0jt6goVz04
Opfordringen til denne video var: "En stilfuld kvinde går ned ad en gade i Tokyo, der er fyldt med varmt lysende neon og animerede byskilte. Hun har en sort læderjakke, en lang rød kjole og sorte støvler på og bærer en sort taske. Hun bærer solbriller og rød læbestift. Hun går selvsikkert og afslappet. Gaden er fugtig og reflekterende, hvilket skaber en spejleffekt af de farverige lys. Mange fodgængere går rundt."
Et skridt tættere på AGI
Vi bliver måske blæst bagover af videoerne, men det er denne forståelse af den fysiske verden, som OpenAI er særligt begejstret for.
I Sora blogindlæg"Sora fungerer som et fundament for modeller, der kan forstå og simulere den virkelige verden, en evne, vi mener, vil være en vigtig milepæl for at opnå AGI", siger virksomheden.
Flere forskere mener, at kropsliggjort AI er nødvendig for at opnå kunstig generel intelligens (AGI). At indbygge AI i en robot, der kan sanse og udforske et fysisk miljø, er en måde at opnå dette på, men det kommer med en række praktiske udfordringer.
Sora blev trænet på en enorm mængde video- og billeddata, som ifølge OpenAI er ansvarlig for de nye evner, som modellen viser ved at simulere aspekter af mennesker, dyr og miljøer fra den fysiske verden.
OpenAI siger, at Sora ikke eksplicit blev trænet i fysikken i 3D-objekter, men at de nye evner er "rene skalafænomener".
Det betyder, at Sora i sidste ende kan bruges til nøjagtigt at simulere en digital verden, som en AI kan interagere med, uden at den behøver at være indlejret i en fysisk enhed som en robot.
På en mere forenklet måde er det, hvad de kinesiske forskere forsøger at opnå med deres AI-robot til småbørn som hedder Tong Tong.
Indtil videre må vi nøjes med de demovideoer, OpenAI har stillet til rådighed. Sora bliver kun gjort tilgængelig for red teamers og nogle visuelle kunstnere, designere og filmskabere for at få feedback og kontrollere modellens tilpasning.
Når Sora bliver offentliggjort, vil vi måske se SAG-AFTRA-ansatte i filmindustrien støve deres strejkevagter af?