DeepMind sviluppa un modello di base per la costruzione di ambienti di gioco 2D

2 aprile 2024

  • DeepMind ha addestrato un modello di base per la generazione di livelli di gioco in 2D a partire da prompt di testo o immagini
  • Denominato Genie, questo modello semplifica la creazione di ambienti 2D funzionali.
  • Ciò offre anche un potenziale per la costruzione di robot in grado di comprendere correttamente nuovi ambienti.
Gioco di intelligenza artificiale

Genie di Google DeepMind è un modello generativo che traduce semplici immagini o richieste di testo in mondi dinamici e interattivi. 

Genie è stato addestrato su un ampio set di dati di oltre 200.000 ore di filmati di gioco, tra cui gameplay di platform 2D e interazioni robotiche reali. 

Questo vasto insieme di dati ha permesso a Genie di comprendere e generare la fisica, la dinamica e l'estetica di numerosi ambienti e oggetti.

Il modello definitivo, documentato in un carta di ricercacontiene 11 miliardi di parametri per generare mondi virtuali interattivi a partire da immagini in diversi formati o da richieste di testo. 

Così, potete dare a Genie un'immagine del vostro salotto o del vostro giardino e trasformarla in un livello di piattaforma 2D giocabile.

Oppure scarabocchiare un ambiente 2D su un foglio di carta e convertirlo in un ambiente di gioco giocabile.

DeepMind AI
Genie può funzionare come un ambiente interattivo, accettando vari suggerimenti come immagini generate o schizzi disegnati a mano. Gli utenti possono guidare l'output del modello fornendo azioni latenti a ogni passo temporale, che Genie utilizza per generare il fotogramma successivo della sequenza a 1 FPS. Fonte: DeepMind via ArXiv (accesso libero).

Ciò che distingue Genie da altri modelli di mondo è la sua capacità di consentire agli utenti di interagire con gli ambienti generati fotogramma per fotogramma.

Per esempio, qui sotto potete vedere come Genie prende fotografie di ambienti reali e le trasforma in livelli di gioco 2D.

DeepMind AI
Genie può creare livelli di gioco a partire da a) altri livelli di gioco, b) schizzi disegnati a mano e c) fotografie di ambienti reali. Guardate i livelli di gioco (riga inferiore) generati da immagini del mondo reale (riga superiore). Fonte: DeepMind.

Come funziona Genie

Genie è un "modello di fondazione del mondo" con tre componenti chiave: un tokenizer video spaziotemporale, un modello di dinamica autoregressiva e un modello di azione latente (LAM) semplice e scalabile.

Ecco come funziona:

  1. Trasformatori spaziotemporali: Il cuore di Genie è costituito dai trasformatori spaziotemporali (ST), che elaborano sequenze di fotogrammi video. A differenza dei trasformatori tradizionali che gestiscono testo o immagini statiche, i trasformatori ST sono progettati per comprendere la progressione dei dati visivi nel tempo, rendendoli ideali per la generazione di video e ambienti dinamici.
  2. Modello di azione latente (LAM): Genie comprende e predice le azioni all'interno dei suoi mondi generati attraverso il LAM. Questo infonde le azioni potenziali che potrebbero verificarsi tra i fotogrammi di un video, apprendendo un insieme di "azioni latenti" direttamente dai dati visivi. Ciò consente a Genie di controllare la progressione degli eventi negli ambienti interattivi, nonostante l'assenza di etichette di azione esplicite nei dati di addestramento.
  3. Modello di tokenizzazione e dinamica dei video: Per gestire i dati video, Genie impiega un tokenizer video che comprime i fotogrammi video grezzi in un formato più maneggevole di tokens discreti. Dopo la tokenizzazione, il modello dinamico predice la serie successiva di fotogrammi, generando i fotogrammi successivi nell'ambiente interattivo.

Il team di DeepMind ha spiegato che "Genie potrebbe consentire a un gran numero di persone di generare le proprie esperienze di gioco. Questo potrebbe essere positivo per coloro che desiderano esprimere la propria creatività in un modo nuovo, ad esempio i bambini che potrebbero progettare e calarsi nei loro mondi immaginari".

In un esperimento collaterale, quando sono stati presentati video di bracci robotici reali che si impegnavano con oggetti del mondo reale, Genie ha dimostrato una sorprendente capacità di decifrare le azioni che questi bracci potevano eseguire. Questo dimostra i potenziali impieghi nella ricerca robotica. 

Tim Rocktäschel del team Genie ha descritto il potenziale aperto di Genie: "È difficile prevedere quali casi d'uso saranno abilitati. Speriamo che progetti come Genie finiscano per fornire alle persone nuovi strumenti per esprimere la propria creatività". 

DeepMind era consapevole dei rischi che avrebbe comportato la pubblicazione di questo modello di base, tanto che nel documento si legge: "Abbiamo scelto di non rilasciare i checkpoint del modello addestrato, il dataset di addestramento del modello o gli esempi tratti da tali dati a corredo di questo documento o del sito web".

"Vorremmo avere l'opportunità di impegnarci ulteriormente con la comunità della ricerca (e dei videogiochi) e di garantire che ogni futura uscita di questo tipo sia rispettosa, sicura e responsabile".

Utilizzo di giochi per simulare applicazioni reali

DeepMind ha utilizzato i videogiochi per diversi progetti di apprendimento automatico. 

Ad esempio, nel 2021, DeepMind ha costruito XLandUn parco giochi virtuale per testare approcci di apprendimento per rinforzo (RL) per agenti AI generalisti. Qui i modelli di IA hanno imparato a cooperare e a risolvere problemi eseguendo compiti come lo spostamento di ostacoli in ambienti di gioco aperti. 

Poi, proprio il mese scorso, SIMA (Scalable, Instructable, Multiworld Agent) è stato progettato per comprendere ed eseguire istruzioni in linguaggio umano in diversi giochi e scenari. 

SIMA è stato addestrato con nove videogiochi che richiedono diverse abilità, dalla navigazione di base al pilotaggio di veicoli. 

Gli ambienti di gioco offrono una sandbox controllabile e scalabile per l'addestramento e il test dei modelli di intelligenza artificiale.

L'esperienza di DeepMind nel campo dei giochi risale al 2014-2015, quando ha sviluppato un algoritmo in grado di sconfiggere gli esseri umani in giochi come Pong e Space Invaders, per non parlare di AlphaGo, che ha sconfitto il giocatore professionista Fan Hui su un tabellone 19×19 di dimensioni reali.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni