OpenAI heeft Sora onthuld, een geavanceerd tekst-naar-video (TTV) model dat realistische video's van maximaal 60 seconden genereert op basis van een tekstmelding van een gebruiker.
We hebben de laatste tijd grote vooruitgang gezien in het maken van AI-video's. Vorige maand waren we enthousiast toen Google ons een demo gaf van LumièreHet TTV-model genereert videoclips van 5 seconden met een uitstekende samenhang en beweging.
Het is nog maar een paar weken later en de indrukwekkende demonstratievideo's die Sora genereert, laten Google's Lumiere er al heel ouderwets uitzien.
Sora genereert levensechte video's die meerdere scènes kunnen bevatten met gesimuleerde camerabewegingen terwijl complexe aanwijzingen nauwkeurig worden opgevolgd. Het kan ook afbeeldingen genereren, video's achteruit en vooruit verlengen en een video genereren met een afbeelding als prompt.
Sommige van Sora's indrukwekkende prestaties liggen in dingen die we als vanzelfsprekend beschouwen als we naar een video kijken, maar die moeilijk te produceren zijn voor AI.
Hier is een voorbeeld van een video die Sora maakte op basis van de prompt: "Een filmtrailer met de avonturen van de 30-jarige ruimtevaarder met een rood wollen gebreide motorhelm, blauwe lucht, zoutwoestijn, filmische stijl, opgenomen op 35mm-film, levendige kleuren."
https://youtu.be/twyhYQM9254
Dit korte filmpje laat een paar belangrijke kenmerken van Sora zien die het echt speciaal maken.
- De prompt was vrij complex en de gegenereerde video sloot er nauw bij aan.
- Sora behoudt de samenhang van zijn personage. Zelfs wanneer het personage uit een kader verdwijnt en weer verschijnt, blijft het uiterlijk van het personage consistent.
- Sora behoudt beeldpermanentie. Een object in een scène blijft behouden in latere frames tijdens pannen of scènewisselingen.
- De gegenereerde video toont een nauwkeurig begrip van de fysica en veranderingen in de omgeving. De belichting, schaduwen en voetafdrukken in de zoutpan zijn hier goede voorbeelden van.
Sora begrijpt niet alleen wat de woorden in de prompt betekenen, maar ook hoe die voorwerpen met elkaar reageren in de fysieke wereld.
Hier is nog een geweldig voorbeeld van de indrukwekkende video die Sora kan maken.
https://youtu.be/g0jt6goVz04
De opdracht voor deze video was: "Een stijlvolle vrouw loopt door een straat in Tokio vol warm gloeiend neon en geanimeerde stadsborden. Ze draagt een zwart leren jack, een lange rode jurk, zwarte laarzen en een zwarte tas. Ze draagt een zonnebril en rode lippenstift. Ze loopt zelfverzekerd en nonchalant. De straat is vochtig en weerspiegelend, waardoor een spiegeleffect van de kleurrijke lichten ontstaat. Er lopen veel voetgangers rond."
Een stap dichter bij AGI
We mogen dan weggeblazen zijn door de video's, maar het is dit begrip van de fysieke wereld waar OpenAI bijzonder enthousiast over is.
In de Sora blog postzegt het bedrijf: "Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een vermogen waarvan wij geloven dat het een belangrijke mijlpaal zal zijn voor het bereiken van AGI."
Verschillende onderzoekers geloven dat belichaamde AI nodig is om kunstmatige algemene intelligentie (AGI) te bereiken. Het inbedden van AI in een robot die een fysieke omgeving kan voelen en verkennen is één manier om dit te bereiken, maar dit gaat gepaard met een reeks praktische uitdagingen.
Sora werd getraind op een enorme hoeveelheid video- en beeldgegevens, die volgens OpenAI verantwoordelijk zijn voor de opkomende capaciteiten die het model vertoont bij het simuleren van aspecten van mensen, dieren en omgevingen uit de fysieke wereld.
OpenAI zegt dat Sora niet expliciet is getraind in de fysica van 3D-objecten, maar dat de opkomende vaardigheden "puur schaalverschijnselen" zijn.
Dit betekent dat Sora uiteindelijk kan worden gebruikt om nauwkeurig een digitale wereld te simuleren waarmee een AI kan interageren zonder dat deze hoeft te worden belichaamd in een fysiek apparaat zoals een robot.
Op een meer simplistische manier is dit wat de Chinese onderzoekers proberen te bereiken met hun AI robot peuter genaamd Tong Tong.
Voorlopig moeten we ons tevreden stellen met de demonstratievideo's die OpenAI heeft geleverd. Sora wordt alleen beschikbaar gesteld aan red teamers en enkele visuele kunstenaars, ontwerpers en filmmakers om feedback te krijgen en de uitlijning van het model te controleren.
Als Sora openbaar wordt gemaakt, zien we dan misschien SAG-AFTRA-medewerkers uit de filmindustrie hun picketborden afstoffen?