OpenAI har avduket Sora, en toppmoderne tekst-til-video-modell (TTV) som genererer realistiske videoer på opptil 60 sekunder fra en tekstmelding fra brukeren.
Vi har sett store fremskritt innen AI-videogenerering i det siste. I forrige måned ble vi begeistret da Google ga oss en demo av LumiereTTV-modellen som genererer 5-sekunders videoklipp med utmerket sammenheng og bevegelse.
Bare noen uker senere får de imponerende demovideoene som Sora har generert, Googles Lumiere til å se ganske gammeldags ut.
Sora genererer virkelighetstro video som kan inneholde flere scener med simulert kamerapanorering, samtidig som den følger komplekse instruksjoner nøye. Den kan også generere bilder, forlenge videoer bakover og fremover og generere en video med et bilde som ledetekst.
Noe av Soras imponerende ytelse ligger i ting vi tar for gitt når vi ser på en video, men som er vanskelig for kunstig intelligens å produsere.
Her er et eksempel på en video Sora genererte ut fra ledeteksten: "En filmtrailer med eventyrene til en 30 år gammel romfarer iført rød ullstrikket motorsykkelhjelm, blå himmel, saltørken, filmatisk stil, filmet på 35 mm film, levende farger."
https://youtu.be/twyhYQM9254
Dette korte klippet viser noen av de viktigste funksjonene i Sora som gjør den helt spesiell.
- Oppfordringen var ganske kompleks, og den genererte videoen fulgte den nøye.
- Sora opprettholder karakterens koherens. Selv når karakteren forsvinner fra en ramme og dukker opp igjen, forblir karakterens utseende konsistent.
- Sora beholder bildepermanens. Et objekt i en scene beholdes i senere bilder ved panorering eller ved sceneskift.
- Den genererte videoen viser en nøyaktig forståelse av fysikk og endringer i omgivelsene. Lyset, skyggene og fotavtrykkene i saltpannen er gode eksempler på dette.
Sora forstår ikke bare hva ordene i ledeteksten betyr, den forstår også hvordan disse objektene samhandler med hverandre i den fysiske verden.
Her er et annet godt eksempel på den imponerende videoen Sora kan generere.
https://youtu.be/g0jt6goVz04
Oppfordringen til denne videoen var "En stilig kvinne går nedover en gate i Tokyo, fylt med varmt lysende neon og animerte byskilt. Hun har på seg en svart skinnjakke, en lang rød kjole, svarte støvler og en svart veske. Hun bærer solbriller og rød leppestift. Hun går selvsikkert og avslappet. Gaten er fuktig og reflekterende, noe som skaper en speileffekt av de fargerike lysene. Mange fotgjengere går rundt."
Et skritt nærmere AGI
Vi blir kanskje imponert av videoene, men det er denne forståelsen av den fysiske verden som OpenAI er spesielt begeistret for.
I Sora blogginnlegg"Sora danner grunnlaget for modeller som kan forstå og simulere den virkelige verden, noe vi mener vil være en viktig milepæl for å oppnå AGI", sier selskapet.
Flere forskere mener at kroppsliggjort AI er nødvendig for å oppnå kunstig generell intelligens (AGI). En måte å oppnå dette på er å bygge inn kunstig intelligens i en robot som kan sanse og utforske de fysiske omgivelsene, men det er forbundet med en rekke praktiske utfordringer.
Sora ble trent opp på en enorm mengde video- og bildedata, noe som ifølge OpenAI er årsaken til modellens evne til å simulere aspekter ved mennesker, dyr og miljøer fra den fysiske verden.
OpenAI sier at Sora ikke har fått eksplisitt opplæring i fysikken til 3D-objekter, men at de nye evnene er "rene skalafenomener".
Det betyr at Sora etter hvert kan brukes til å simulere en digital verden som en kunstig intelligens kan samhandle med, uten at den trenger å være innlemmet i en fysisk enhet som en robot.
Litt forenklet kan man si at det er dette de kinesiske forskerne forsøker å oppnå med sin AI-robot for småbarn som heter Tong Tong.
Inntil videre må vi nøye oss med demovideoene som OpenAI har levert. Sora blir bare gjort tilgjengelig for red teamers og noen visuelle kunstnere, designere og filmskapere for å få tilbakemeldinger og sjekke modellens tilpasning.
Når Sora slippes offentlig, kan vi kanskje få se SAG-AFTRA-ansatte i filmbransjen børste støv av streikevaktskiltene sine?