Imaginez une IA qui ne se contente pas de comprendre les ordres, mais qui les applique, comme le ferait un humain, dans un ensemble d'environnements 3D simulés.
C'est l'objectif du projet DeepMind (Scalable, Instructable, Multiworld Agent (SIMA)).
Contrairement à l'IA traditionnelle, qui peut exceller dans des tâches discrètes telles que les jeux stratégiques ou la résolution de problèmes spécifiques, les agents de la LMSI sont formés pour interpréter des instructions en langage humain et les traduire en actions à l'aide d'un clavier et d'une souris, imitant ainsi l'interaction entre l'homme et l'ordinateur.
Qu'il s'agisse de naviguer dans un paysage numérique, de résoudre des énigmes ou d'interagir avec des objets dans un jeu, SIMA vise à comprendre et à exécuter ces commandes avec la même intuition et la même capacité d'adaptation qu'une personne.
Présentation de SIMA : le premier agent d'intelligence artificielle généraliste capable de suivre des instructions en langage naturel dans un large éventail d'environnements virtuels en 3D et de jeux vidéo. 🕹️
Il peut accomplir des tâches similaires à celles d'un humain et surpasse un agent formé dans un seul contexte. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 mars 2024
Le cœur de ce projet est un ensemble de données énorme et diversifié de jeux humains dans des environnements de recherche et des jeux vidéo commerciaux.
SIMA a été formé et testé sur une sélection de neuf jeux vidéo grâce à des collaborations avec huit studios de jeux, dont des titres bien connus comme No Man's Sky et Teardown. Chaque jeu met SIMA face à différentes compétences, allant de la navigation de base et de la collecte de ressources à des activités plus complexes comme l'artisanat et le pilotage de vaisseaux spatiaux.
La formation de SIMA comprenait quatre environnements de recherche afin d'évaluer ses compétences en matière d'interaction physique et de manipulation d'objets.
En termes d'architecture, SIMA utilise des modèles de vision et de prédiction vidéo pré-entraînés, adaptés aux paramètres 3D spécifiques de son portefeuille de jeux.
Contrairement aux IA traditionnelles, SIMA ne nécessite pas d'accès au code source ou à des API personnalisées. Elle utilise des images à l'écran et des instructions fournies par l'utilisateur, en recourant aux actions du clavier et de la souris pour exécuter les tâches.
Lors de sa phase d'évaluation, SIMA a démontré la maîtrise de 600 compétences de base englobant la navigation, l'interaction avec les objets et l'utilisation des menus.
Ce qui distingue SIMA, c'est sa généralité. Cette IA n'est pas entraînée à maîtriser un seul jeu ou à résoudre un ensemble particulier de problèmes.
DeepMind lui apprend à s'adapter, à comprendre les instructions et à agir en conséquence dans différents mondes virtuels.
Tim Harley, de DeepMind, explique : "Il s'agit encore d'un projet de recherche", mais à l'avenir, "on pourrait imaginer qu'un jour des agents comme SIMA jouent à vos côtés dans des jeux, avec vous et avec vos amis".
SIMA n'a besoin que des images fournies par l'environnement 3D et des instructions en langage naturel données par l'utilisateur. 🖱️
Avec la souris et le clavier, il est évalué sur 600 compétences, couvrant des domaines tels que la navigation et l'interaction avec les objets - comme "tourner à gauche" ou "couper un arbre".... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 mars 2024
SIMA maîtrise l'art de comprendre et d'agir sur nos instructions en ancrant le langage dans la perception et l'action.
DeepMind dispose d'un vaste patrimoine en matière de jeux, qui remonte à AlphaGo en 2014qui a ensuite battu plusieurs joueurs de renom du célèbre jeu asiatique complexe qu'est le Go.
Cependant, SIMA va plus loin que les jeux vidéo et se rapproche du rêve d'un système véritablement intelligent et instructible. Agents d'intelligence artificielle qui brouillent les frontières entre la compréhension de l'homme et celle de la machine.