Google a présenté les résultats de tests passionnants de son dernier modèle de robot vision-langage-action (VLA) appelé Robotics Transformer 2 (RT-2).
L'essentiel des discussions récentes sur l'IA s'est concentré sur les grands modèles linguistiques tels que ChatGPT et Llama. Les réponses fournies par ces modèles, bien qu'utiles, restent sur l'écran de votre appareil. Avec RT-2, Google apporte la puissance de l'IA au monde physique. Un monde où les robots auto-apprenants pourraient bientôt faire partie de notre vie quotidienne.
La dextérité des robots s'est considérablement améliorée, mais ils ont toujours besoin d'instructions de programmation très spécifiques pour accomplir les tâches les plus simples. Lorsque la tâche change, même légèrement, le programme doit être modifié.
Avec RT-2, Google a créé un modèle qui permet à un robot de classer et d'apprendre à partir des choses qu'il voit en combinaison avec les mots qu'il entend. Il raisonne ensuite en fonction des instructions qu'il reçoit et prend des mesures physiques en réponse.
Avec les LLM, une phrase est décomposée en tokens, c'est-à-dire en petits morceaux de mots qui permettent à l'IA de comprendre la phrase. Google a repris ce principe et a transformé en jetons les mouvements qu'un robot devrait effectuer en réponse à une commande.
Les mouvements d'un bras robotisé doté d'une pince, par exemple, seraient décomposés en jetons correspondant à des changements de positions x et y ou à des rotations.
Dans le passé, les robots avaient généralement besoin d'une expérience directe pour effectuer une action. Mais avec notre nouveau modèle vision-langage-action, RT-2, ils peuvent désormais apprendre à partir de textes et d'images du web pour s'attaquer à des tâches nouvelles et complexes. En savoir plus ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 juillet 2023
Qu'est-ce que le RT-2 permet à un robot de faire ?
Le fait de pouvoir comprendre ce qu'il voit et entend et d'avoir un raisonnement en chaîne signifie que le robot n'a pas besoin d'être programmé pour de nouvelles tâches.
Un exemple que Google a donné dans son rapport DeepMind article de blog sur la RT-2 était de "décider quel objet peut être utilisé comme marteau improvisé (une pierre), ou quel type de boisson est le meilleur pour une personne fatiguée (une boisson énergisante)".
Dans les tests qu'il a effectués, Google a soumis un bras robotique et une pince à une série de requêtes qui nécessitaient une compréhension du langage, une vision et un raisonnement, afin de pouvoir prendre la mesure appropriée. Par exemple, face à deux sacs de chips posés sur une table, dont l'un dépassait légèrement le bord, le robot devait "ramasser le sac sur le point de tomber de la table".
Cela peut paraître simple, mais la connaissance du contexte nécessaire pour prendre le bon sac est révolutionnaire dans le monde de la robotique.
Pour expliquer à quel point RT-2 est plus avancé que les LLM ordinaires, un autre blog de Google explique qu'"un robot doit être capable de reconnaître une pomme dans son contexte, de la distinguer d'une balle rouge, de comprendre à quoi elle ressemble et, surtout, de savoir comment la ramasser".
Bien qu'il s'agisse d'un stade précoce, la perspective de robots ménagers ou industriels aidant à accomplir diverses tâches dans des environnements changeants est passionnante. Les applications dans le domaine de la défense retiennent certainement aussi l'attention.
Le bras robotique de Google n'a pas toujours bien fait les choses et disposait d'un gros bouton rouge d'arrêt d'urgence en cas de dysfonctionnement. Espérons que les futurs robots seront équipés de quelque chose de similaire au cas où ils ne seraient pas satisfaits de leur patron un jour.