Immaginate un'intelligenza artificiale che non si limiti a comprendere i comandi, ma li applichi, come farebbe un essere umano, in una serie di ambienti 3D simulati.
Questo è l'obiettivo dell'agente scalabile, istruibile e multimondo (SIMA) di DeepMind.
A differenza dell'IA tradizionale, che potrebbe eccellere in compiti discreti come i giochi strategici o la risoluzione di problemi specifici, gli agenti di SIMA sono addestrati a interpretare le istruzioni del linguaggio umano e a tradurle in azioni utilizzando una tastiera e un mouse, imitando l'interazione umana con un computer.
Ciò significa che, sia che si tratti di navigare in un paesaggio digitale, di risolvere enigmi o di interagire con gli oggetti di un gioco, SIMA mira a comprendere ed eseguire i comandi con la stessa intuizione e adattabilità di una persona.
Presentazione di SIMA: il primo agente AI generalista in grado di seguire istruzioni in linguaggio naturale in un'ampia gamma di ambienti virtuali 3D e videogiochi. 🕹️
È in grado di completare compiti simili a quelli di un essere umano e supera un agente addestrato in un solo ambiente. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 marzo 2024
Il nucleo di questo progetto è costituito da un enorme e diversificato set di dati di gioco umano in ambienti di ricerca e videogiochi commerciali.
Il SIMA è stato addestrato e testato su una selezione di nove videogiochi grazie alla collaborazione con otto studi di videogiochi, tra cui titoli famosi come No Man's Sky e Teardown. Ogni gioco mette alla prova SIMA con abilità diverse, dalla navigazione di base e la raccolta di risorse ad attività più complesse come il crafting e il pilotaggio di astronavi.
L'addestramento del SIMA comprendeva quattro ambienti di ricerca per valutare le sue capacità di interazione fisica e di manipolazione degli oggetti.
In termini di architettura, SIMA utilizza modelli di visione e di predizione video pre-addestrati, messi a punto in base alle specifiche impostazioni 3D del suo portafoglio di giochi.
A differenza delle tradizionali IA da gioco, SIMA non richiede l'accesso al codice sorgente o alle API personalizzate. Gestisce le immagini sullo schermo e le istruzioni fornite dall'utente, utilizzando le azioni della tastiera e del mouse per eseguire i compiti.
Nella fase di valutazione, SIMA ha dimostrato di possedere 600 abilità di base che comprendono la navigazione, l'interazione con gli oggetti e l'uso dei menu.
Ciò che distingue SIMA è la sua generalità. Questa IA non viene addestrata per padroneggiare un singolo gioco o risolvere un particolare insieme di problemi.
DeepMind gli sta invece insegnando ad adattarsi, a comprendere le istruzioni e ad agire in base ad esse in diversi mondi virtuali.
Tim Harley di DeepMind ha spiegato: "È ancora un progetto di ricerca", ma in futuro "si potrebbe immaginare di avere agenti come SIMA che giocano con voi e con i vostri amici".
SIMA ha bisogno solo delle immagini fornite dall'ambiente 3D e delle istruzioni in linguaggio naturale fornite dall'utente. 🖱️
Con le uscite da mouse e tastiera, viene valutata una serie di 600 abilità, che spaziano in aree come la navigazione e l'interazione con gli oggetti, come "girare a sinistra" o "abbattere un albero"... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 marzo 2024
SIMA è padroneggiare l'arte di comprendere e agire in base alle nostre istruzioni, fondando il linguaggio sulla percezione e sull'azione.
DeepMind ha un'ampia eredità di giochi che risale ai tempi di AlphaGo nel 2014che ha battuto diversi giocatori di alto profilo del famoso e complesso gioco asiatico Go.
Tuttavia, SIMA si spinge oltre i videogiochi, avvicinandosi al sogno di un sistema di istruzione veramente intelligente. Agenti AI che sfumano i confini tra la comprensione umana e quella della macchina.