OpenAI lanserer Sora, en avansert tekst-til-video-modell

OpenAI har avduket Sora, en toppmoderne tekst-til-video-modell (TTV) som genererer realistiske videoer på opptil 60 sekunder fra en tekstmelding fra brukeren.

Vi har sett store fremskritt innen AI-videogenerering i det siste. I forrige måned ble vi begeistret da Google ga oss en demo av LumiereTTV-modellen som genererer 5-sekunders videoklipp med utmerket sammenheng og bevegelse.

Bare noen uker senere får de imponerende demovideoene som Sora har generert, Googles Lumiere til å se ganske gammeldags ut.

Sora genererer virkelighetstro video som kan inneholde flere scener med simulert kamerapanorering, samtidig som den følger komplekse instruksjoner nøye. Den kan også generere bilder, forlenge videoer bakover og fremover og generere en video med et bilde som ledetekst.

Noe av Soras imponerende ytelse ligger i ting vi tar for gitt når vi ser på en video, men som er vanskelig for kunstig intelligens å produsere.

Her er et eksempel på en video Sora genererte ut fra ledeteksten: "En filmtrailer med eventyrene til en 30 år gammel romfarer iført rød ullstrikket motorsykkelhjelm, blå himmel, saltørken, filmatisk stil, filmet på 35 mm film, levende farger."

https://youtu.be/twyhYQM9254

Dette korte klippet viser noen av de viktigste funksjonene i Sora som gjør den helt spesiell.

Oppfordringen var ganske kompleks, og den genererte videoen fulgte den nøye.
Sora opprettholder karakterens koherens. Selv når karakteren forsvinner fra en ramme og dukker opp igjen, forblir karakterens utseende konsistent.
Sora beholder bildepermanens. Et objekt i en scene beholdes i senere bilder ved panorering eller ved sceneskift.
Den genererte videoen viser en nøyaktig forståelse av fysikk og endringer i omgivelsene. Lyset, skyggene og fotavtrykkene i saltpannen er gode eksempler på dette.

Sora forstår ikke bare hva ordene i ledeteksten betyr, den forstår også hvordan disse objektene samhandler med hverandre i den fysiske verden.

Her er et annet godt eksempel på den imponerende videoen Sora kan generere.

https://youtu.be/g0jt6goVz04

Oppfordringen til denne videoen var "En stilig kvinne går nedover en gate i Tokyo, fylt med varmt lysende neon og animerte byskilt. Hun har på seg en svart skinnjakke, en lang rød kjole, svarte støvler og en svart veske. Hun bærer solbriller og rød leppestift. Hun går selvsikkert og avslappet. Gaten er fuktig og reflekterende, noe som skaper en speileffekt av de fargerike lysene. Mange fotgjengere går rundt."

Et skritt nærmere AGI

Vi blir kanskje imponert av videoene, men det er denne forståelsen av den fysiske verden som OpenAI er spesielt begeistret for.

I Sora blogginnlegg"Sora danner grunnlaget for modeller som kan forstå og simulere den virkelige verden, noe vi mener vil være en viktig milepæl for å oppnå AGI", sier selskapet.

Flere forskere mener at kroppsliggjort AI er nødvendig for å oppnå kunstig generell intelligens (AGI). En måte å oppnå dette på er å bygge inn kunstig intelligens i en robot som kan sanse og utforske de fysiske omgivelsene, men det er forbundet med en rekke praktiske utfordringer.

Sora ble trent opp på en enorm mengde video- og bildedata, noe som ifølge OpenAI er årsaken til modellens evne til å simulere aspekter ved mennesker, dyr og miljøer fra den fysiske verden.

OpenAI sier at Sora ikke har fått eksplisitt opplæring i fysikken til 3D-objekter, men at de nye evnene er "rene skalafenomener".

Det betyr at Sora etter hvert kan brukes til å simulere en digital verden som en kunstig intelligens kan samhandle med, uten at den trenger å være innlemmet i en fysisk enhet som en robot.

Litt forenklet kan man si at det er dette de kinesiske forskerne forsøker å oppnå med sin AI-robot for småbarn som heter Tong Tong.

Inntil videre må vi nøye oss med demovideoene som OpenAI har levert. Sora blir bare gjort tilgjengelig for red teamers og noen visuelle kunstnere, designere og filmskapere for å få tilbakemeldinger og sjekke modellens tilpasning.

Når Sora slippes offentlig, kan vi kanskje få se SAG-AFTRA-ansatte i filmbransjen børste støv av streikevaktskiltene sine?

OpenAI lanserer Sora, en avansert tekst-til-video-modell

Et skritt nærmere AGI

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

Google lanserer Gemma, en åpen LLM som kan kjøres lokalt

Adobe lanserer en ny PDF AI-chatbot for Reader og Acrobat

NVIDIAs tilpassede chatbot kjører lokalt på RTX AI-PC-er

Amazon lanserer Rufus, en generativ AI-shoppingassistent

OpenAI lanserer Sora, en avansert tekst-til-video-modell

Et skritt nærmere AGI

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

Google lanserer Gemma, en åpen LLM som kan kjøres lokalt

Adobe lanserer en ny PDF AI-chatbot for Reader og Acrobat

NVIDIAs tilpassede chatbot kjører lokalt på RTX AI-PC-er

Amazon lanserer Rufus, en generativ AI-shoppingassistent

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI