Runway ha presentato il suo ultimo generatore da testo a video (T2V), chiamato Gen 3 Alpha, e le dimostrazioni lasciano intendere che potrebbe essere il miglior generatore di video AI finora.
OpenAI Sora ci ha stupito qualche mese fa, ma non si sa ancora quando (o se) verrà rilasciato. Runway consente già l'accesso gratuito e a pagamento al suo strumento Gen 2 T2V di precedente generazione.
Gen 2 produce alcuni video decenti, ma è un po' discontinuo e spesso genera anatomie strane o movimenti goffi quando si generano le persone.
Gen 3 Alpha offre video iperrealistici con movimenti fluidi e modelli umani coerenti.
Runway afferma: "Gen-3 Alpha eccelle nel generare personaggi umani espressivi con un'ampia gamma di azioni, gesti ed emozioni, aprendo nuove opportunità di narrazione".
Presentazione di Gen-3 Alpha: Il nuovo modello di base di Runway per la generazione di video.
Gen-3 Alpha è in grado di creare video altamente dettagliati con cambi di scena complessi, un'ampia gamma di scelte cinematografiche e indicazioni artistiche dettagliate.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
- Runway (@runwayml) 17 giugno 2024
La maggiore fedeltà è accompagnata anche da un miglioramento della velocità: i clip di 10 secondi di lunghezza massima vengono generati in soli 90 secondi. Il limite di 10 secondi è lo stesso di Sora, il doppio di Luma e tre volte quello della Gen 2 di Runway.
Oltre al miglioramento delle rappresentazioni umane, la fisica accurata dei video è davvero impressionante.
E pensare che questo video è 100% generato dall'AI, è una follia totale la notizia che abbiamo sui video AI in questi giorni. #Runway Gen-3 🔥🔥🔥 pic.twitter.com/FLC5TGfYzr
- Pierrick Chevallier | IA (@CharaspowerAI) 17 giugno 2024
Runway afferma che la Gen 3 Alpha offrirà modalità di controllo migliorate che consentiranno all'utente di selezionare elementi specifici da muovere e controlli dettagliati del movimento della telecamera con "strumenti imminenti per un controllo più preciso su struttura, stile e movimento".
Il grado di controllo della telecamera dà un'idea di quanto siamo vicini all'immagine. fine della produzione cinematografica tradizionale.
Prompt: Telecamera a mano che si muove velocemente, luce della torcia, in un vecchio muro bianco in un vecchio vicolo di notte un graffito nero che scrive 'Runway'.
(10/10) pic.twitter.com/xRreX33g0r
- Runway (@runwayml) 17 giugno 2024
OpenAI ha già fatto intendere che i problemi di allineamento sono uno dei motivi per cui non ha ancora rilasciato Sora. Runway afferma che Gen 3 Alpha è dotato di una nuova serie di salvaguardie e di C2PA che consente di tracciare la provenienza dei video generati.
Modelli generali del mondo
L'idea di trasformare il testo in video piacerà alla maggior parte degli utenti, ma Runway afferma che Gen 3 Alpha rappresenta un passo avanti verso un obiettivo diverso.
Runway afferma: "Crediamo che il prossimo grande progresso nell'IA verrà dai sistemi che comprendono il mondo visivo e le sue dinamiche, ed è per questo che stiamo iniziando un nuovo sforzo di ricerca a lungo termine su quelli che chiamiamo modelli generali del mondo".
L'addestramento di un'intelligenza artificiale incarnata a navigare e interagire con un ambiente è molto più veloce ed economico se simulato. Per essere utile, la simulazione deve rappresentare accuratamente la fisica e il movimento degli ambienti reali.
Secondo Runway, questi modelli generali del mondo "devono catturare non solo le dinamiche del mondo, ma anche quelle dei suoi abitanti, il che implica anche la costruzione di modelli realistici del comportamento umano".
Il movimento coerente, la fisica, le caratteristiche umane e le emozioni nei video dimostrativi della Gen 3 sono la prova di un grande passo avanti verso la realizzazione di questo obiettivo.
OpenAI ha quasi certamente lavorato a un aggiornamento di Sora, ma con la Gen 3 Alpha di Runway, la gara per il miglior generatore di video AI è appena diventata molto più competitiva.
Non si sa ancora quando verrà rilasciata la Gen 3 Alpha, ma è possibile Guarda altre dimostrazioni qui o sperimentare con la Gen 2 qui per ora.