OpenAI presenta Sora, un modello avanzato di text-to-video

16 febbraio 2024

OpenAI ha presentato Sora, un modello text-to-video (TTV) all'avanguardia che genera video realistici della durata massima di 60 secondi a partire da un testo richiesto dall'utente.

Ultimamente abbiamo assistito a grandi progressi nella generazione di video AI. Il mese scorso siamo stati entusiasti quando Google ci ha fornito una demo di Lumiere, il suo modello TTV che genera videoclip di 5 secondi con un'eccellente coerenza e movimento.

Sono passate solo poche settimane e già gli impressionanti video dimostrativi generati da Sora fanno sembrare Lumiere di Google piuttosto pittoresco.

Sora genera video ad alta fedeltà che possono includere scene multiple con panning simulato della telecamera, attenendosi strettamente a richieste complesse. Può anche generare immagini, estendere i video in avanti e indietro e generare un video utilizzando un'immagine come prompt.

Alcune delle prestazioni impressionanti di Sora risiedono in cose che diamo per scontate quando guardiamo un video, ma che sono difficili da produrre per l'intelligenza artificiale.

Ecco un esempio di video generato da Sora sulla base del prompt: "Un trailer cinematografico con le avventure del trentenne spaziale che indossa un casco da motociclista in maglia di lana rossa, cielo blu, deserto di sale, stile cinematografico, girato su pellicola da 35 mm, colori vividi".

https://youtu.be/twyhYQM9254

Questo breve filmato illustra alcune caratteristiche chiave di Sora che lo rendono davvero speciale.

  • La richiesta era piuttosto complessa e il video generato si è attenuto strettamente ad essa.
  • Sora mantiene la coerenza del personaggio. Anche quando il personaggio scompare da un'inquadratura e riappare, il suo aspetto rimane coerente.
  • Sora mantiene la permanenza dell'immagine. Un oggetto in una scena viene mantenuto nei fotogrammi successivi durante il panning o i cambi di scena.
  • Il video generato rivela una comprensione accurata della fisica e dei cambiamenti dell'ambiente. L'illuminazione, le ombre e le impronte nella salina ne sono un ottimo esempio.

Sora non si limita a capire il significato delle parole del messaggio, ma comprende anche il modo in cui gli oggetti interagiscono tra loro nel mondo fisico.

Ecco un altro grande esempio degli impressionanti video che Sora può generare.

https://youtu.be/g0jt6goVz04

La richiesta per questo video era: "Una donna elegante cammina in una strada di Tokyo piena di neon caldi e luminosi e di insegne animate della città. Indossa una giacca di pelle nera, un abito lungo rosso, stivali neri e porta con sé una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni camminano".

Un passo avanti verso l'AGI

I video possono lasciarci a bocca aperta, ma è questa comprensione del mondo fisico che OpenAI è particolarmente entusiasta.

Nel Post sul blog di SoraSora funge da base per modelli in grado di comprendere e simulare il mondo reale, una capacità che riteniamo sia un'importante pietra miliare per il raggiungimento dell'intelligenza artificiale".

Diversi ricercatori ritengono che l'IA incarnata sia necessaria per raggiungere l'intelligenza artificiale generale (AGI). L'integrazione dell'intelligenza artificiale in un robot in grado di percepire ed esplorare un ambiente fisico è un modo per raggiungere questo obiettivo, ma comporta una serie di sfide pratiche.

Sora è stato addestrato su un'enorme quantità di dati video e immagini che, secondo OpenAI, sono responsabili delle capacità emergenti che il modello mostra nel simulare aspetti di persone, animali e ambienti del mondo fisico.

OpenAI afferma che Sora non è stato addestrato esplicitamente alla fisica degli oggetti 3D, ma che le abilità emergenti sono "puramente fenomeni di scala".

Ciò significa che Sora potrebbe essere utilizzato per simulare accuratamente un mondo digitale con cui un'IA potrebbe interagire senza la necessità di essere incarnata in un dispositivo fisico come un robot.

In maniera più semplicistica, questo è ciò che i ricercatori cinesi stanno cercando di ottenere con il loro Robot AI per bambini chiamato Tong Tong.

Per ora, dovremo accontentarci dei video dimostrativi forniti da OpenAI. Sora è stato reso disponibile solo ai red teamer e ad alcuni artisti visivi, designer e registi per ottenere un feedback e verificare l'allineamento del modello.

Una volta che Sora sarà rilasciato pubblicamente, potremmo vedere i lavoratori dell'industria cinematografica SAG-AFTRA rispolverare i loro picchetti?

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni