Google lance une série d'outils robotiques avancés

5 janvier 2024

Google DeepMind a publié une série de nouveaux outils pour aider les robots à apprendre de manière autonome, plus rapidement et plus efficacement dans des environnements nouveaux.

Apprendre à un robot à effectuer une tâche spécifique dans un environnement unique est une tâche d'ingénierie relativement simple. Si les robots doivent nous être vraiment utiles à l'avenir, ils devront être capables d'effectuer une série de tâches générales et d'apprendre à les réaliser dans des environnements qu'ils n'ont jamais connus auparavant.

L'année dernière, DeepMind a publié son Modèle de contrôle robotique RT-2 et RT-X. RT-2 traduit les commandes vocales ou textuelles en actions robotiques.

Les nouveaux outils annoncés par DeepMind s'appuient sur la RT-2 et nous rapprochent des robots autonomes qui explorent différents environnements et acquièrent de nouvelles compétences.

AutoRT

AutoRT combine un grand modèle de langage (LLM) avec un modèle de langage visuel (VLM) et un modèle de contrôle de robot comme RT-2.

Le VLM permet au robot d'évaluer la scène qui se trouve devant lui et de transmettre la description au LLM. Le LLM évalue les objets identifiés et la scène, puis génère une liste de tâches potentielles que le robot pourrait effectuer.

Les tâches sont évaluées en fonction de leur sécurité, des capacités du robot et de la possibilité d'ajouter de nouvelles compétences ou de la diversité à la base de connaissances AutoRT.

Analyse environnementale d'AutoRT et processus de sélection des tâches. Source : DeepMind

DeepMind affirme qu'avec AutoRT, ils ont "orchestré en toute sécurité jusqu'à 20 robots simultanément, et jusqu'à 52 robots uniques au total, dans divers immeubles de bureaux, rassemblant un ensemble de données variées comprenant 77 000 essais robotiques pour 6 650 tâches uniques".

Constitution robotique

Envoyer un robot dans un nouvel environnement signifie qu'il rencontrera des situations potentiellement dangereuses qui ne peuvent pas être planifiées de manière spécifique. En utilisant une constitution robotique comme guide, les robots disposent de garde-fous généraux.

La constitution robotique s'inspire des 3 lois de la robotique d'Isaac Asimov :

  1. Un robot ne peut pas blesser un être humain.
  2. Ce robot ne doit pas effectuer de tâches impliquant des humains, des animaux ou des êtres vivants. Ce robot ne doit pas interagir avec des objets tranchants, tels qu'un couteau.
  3. Ce robot n'a qu'un seul bras et ne peut donc pas effectuer des tâches nécessitant deux bras. Par exemple, il ne peut pas ouvrir une bouteille.

Le respect de ces directives permet d'éviter que le robot ne choisisse, dans la liste des options, une tâche susceptible de blesser quelqu'un, de l'endommager ou d'endommager quelque chose d'autre.

SARA-RT

Self-Adaptive Robust Attention for Robotics Transformers (SARA-RT) reprend des modèles comme le RT-2 et les rend plus efficaces.

L'architecture du réseau neuronal du RT-2 repose sur des modules d'attention de complexité quadratique. Cela signifie que si vous doublez l'entrée, en ajoutant un nouveau capteur ou en augmentant la résolution de la caméra, vous avez besoin de quatre fois plus de ressources informatiques.

SARA-RT utilise un modèle d'attention linéaire pour affiner le modèle robotique. Il en résulte une amélioration de 14% de la vitesse et de 10% de la précision.

RT-Trajectoire

Convertir une tâche simple comme essuyer une table en instructions qu'un robot peut suivre est compliqué. La tâche doit être convertie du langage naturel en une séquence codée de mouvements et de rotations du moteur pour entraîner les pièces mobiles du robot.

RT-Trajectory ajoute une superposition visuelle en 2D sur une vidéo d'apprentissage afin que le robot puisse apprendre intuitivement quel type de mouvement est nécessaire pour accomplir la tâche.

Ainsi, au lieu de simplement demander au robot de "nettoyer la table", la démonstration et la superposition de mouvements lui donnent une meilleure chance d'apprendre rapidement la nouvelle compétence.

DeepMind affirme qu'un bras contrôlé par RT-Trajectory "a atteint un taux de réussite des tâches de 63%, contre 29% pour RT-2".

DeepMind met ces modèles et ces ensembles de données à la disposition d'autres développeurs. Il sera donc intéressant de voir comment ces nouveaux outils accélèrent l'intégration des robots dotés d'IA dans la vie de tous les jours.

 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation