Runway afslørede sin seneste tekst-til-video-generator (T2V), kaldet Gen 3 Alpha, og demoerne antyder, at dette kunne være den bedste AI-videogenerator til dato.
OpenAI's Sora imponerede os for et par måneder siden, men der er stadig intet nyt om, hvornår (eller om) det vil blive udgivet. Runway giver allerede gratis og betalt adgang til sin tidligere generation af Gen 2 T2V-værktøjet.
Gen 2 laver nogle gode videoer, men det er lidt tilfældigt og genererer ofte underlig anatomi eller klodsede bevægelser, når man genererer mennesker.
Gen 3 Alpha leverer hyperrealistisk video med jævn bevægelse og sammenhængende menneskemodeller.
Runway siger: "Gen-3 Alpha udmærker sig ved at skabe udtryksfulde menneskelige karakterer med en bred vifte af handlinger, bevægelser og følelser, hvilket åbner op for nye muligheder for historiefortælling."
Vi præsenterer Gen-3 Alpha: Runways nye basismodel til videogenerering.
Gen-3 Alpha kan skabe meget detaljerede videoer med komplekse sceneskift, en bred vifte af filmiske valg og detaljerede art directions.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
- Runway (@runwayml) 17. juni 2024
Den forbedrede troværdighed kommer også med en hastighedsopgradering, hvor den maksimale længde på 10 sekunders klip genereres på bare 90 sekunder. Grænsen på 10 sekunder er den samme som for Sora, dobbelt så lang som for Luma og tre gange så lang som for Runways Gen 2.
Ud over de forbedrede menneskelige repræsentationer er den nøjagtige fysik i videoerne virkelig imponerende.
Og når man tænker på, at denne video er 100% genereret af AI, er det fuldstændig vanvittigt med de nyheder, vi har om AI-videoer i disse dage. #Runway Gen-3 🔥🔥 pic.twitter.com/FLC5TGfYzr
- Pierrick Chevallier | IA (@CharaspowerAI) 17. juni 2024
Runway siger, at Gen 3 Alpha vil give forbedrede kontroltilstande, der gør det muligt for en bruger at vælge specifikke elementer, der skal have bevægelse, og detaljerede kamerabevægelseskontroller med "kommende værktøjer til mere finkornet kontrol over struktur, stil og bevægelse."
Graden af kamerakontrol giver dig en idé om, hvor tæt vi er på... Slut med traditionel filmproduktion.
Opfordring: Håndholdt kamera i hurtig bevægelse, lommelygte, på en hvid gammel mur i en gammel gyde om natten en sort graffiti, der staver 'Runway'.
(10/10) pic.twitter.com/xRreX33g0r
- Runway (@runwayml) 17. juni 2024
OpenAI har tidligere antydet, at bekymringer om tilpasning er en af grundene til, at de ikke har frigivet Sora endnu. Runway siger, at Gen 3 Alpha kommer med et nyt sæt sikkerhedsforanstaltninger og C2PA, som gør det muligt at spore oprindelsen af genereret video.
Generelle verdensmodeller
Ideen om at omdanne tekst til videoer vil appellere til de fleste brugere, men Runway siger, at Gen 3 Alpha er et skridt i retning af et andet mål.
Runway siger: "Vi tror, at det næste store fremskridt inden for AI vil komme fra systemer, der forstår den visuelle verden og dens dynamik, og derfor starter vi en ny langsigtet forskningsindsats omkring det, vi kalder generelle verdensmodeller."
Det er meget hurtigere og billigere at træne en kropslig AI til at navigere og interagere med et miljø, når det er simuleret. For at simuleringen skal være nyttig, skal den nøjagtigt repræsentere fysikken og bevægelserne i virkelige miljøer.
Runway siger, at disse generelle verdensmodeller "ikke kun skal indfange verdens dynamik, men også indbyggernes dynamik, hvilket også indebærer at opbygge realistiske modeller af menneskelig adfærd."
Den sammenhængende bevægelse, fysik, menneskelige træk og følelser i Gen 3-demovideoerne er tegn på et stort skridt i retning af at gøre dette muligt.
OpenAI har næsten helt sikkert arbejdet på en opgraderet Sora, men med Runways Gen 3 Alpha er kapløbet om den bedste AI-videogenerator lige blevet meget mere konkurrencepræget.
Der er ikke noget nyt om, hvornår Gen 3 Alpha udkommer, men du kan Se flere demoer her eller eksperimentere med Gen 2 her for nu.