DeepMind de Google a collaboré avec 33 laboratoires universitaires différents pour créer un ensemble de données d'entraînement à l'IA basé sur 22 types de robots différents.
Les robots sont très doués pour faire une chose précise. Si vous voulez qu'il fasse quelque chose de légèrement différent, le robot doit être formé à partir de zéro. L'objectif ultime de la robotique est de disposer d'un robot capable de réaliser un large éventail d'actions et d'acquérir de nouvelles compétences par lui-même.
Pour entraîner un modèle d'intelligence artificielle, il faut disposer d'un vaste ensemble de données en rapport avec l'objectif du modèle. Les modèles linguistiques tels que GPT-4 sont formés sur de grandes quantités de données écrites. Les générateurs d'images tels que DALL-E 3 sont formés sur de grandes quantités d'images.
Avec X-Embodiment, DeepMind a créé un ensemble de données d'actions robotiques basées sur 22 types de robots différents. Il a ensuite utilisé cet ensemble de données pour former de nouveaux modèles basés sur ses modèles robotiques RT-1 et RT-2.
Les données relatives à X-Embodiment proviennent de "22 incarnations de robots, démontrant plus de 500 compétences et 150 000 tâches à travers plus d'un million d'épisodes". Message de DeepMind.
Présentation de 𝗥𝗧-𝗫 : un modèle d'IA généraliste pour aider à faire progresser la façon dont les robots peuvent apprendre de nouvelles compétences. 🤖
Pour l'entraîner, nous nous sommes associés à 33 laboratoires universitaires du monde entier afin de constituer un nouvel ensemble de données contenant les expériences acquises par 22 types de robots différents.
Pour en savoir plus : https://t.co/k6tE62gQGP pic.twitter.com/IXTy2g4Lty
- Google DeepMind (@GoogleDeepMind) 3 octobre 2023
Les résultats des tests antérieurs de la RT-1 et de la Modèles RT-2 étaient déjà impressionnantes, mais DeepMind a constaté que les versions RT-X étaient nettement plus performantes en raison de la nature générale du nouvel ensemble de données.
Les tests ont consisté à comparer un robot contrôlé par un modèle entraîné pour une tâche spécifique avec ce même robot contrôlé par le modèle RT-1-X. RT-1-X a réalisé en moyenne 50% de mieux que les modèles conçus spécifiquement pour des tâches telles que l'ouverture d'une porte ou l'acheminement d'un câble.
RT-2, le modèle robotique vision-langage-action (VLA) de Google, permet aux robots d'apprendre à partir de données web, verbales et visuelles, puis d'agir sans avoir été formés. Lorsque les ingénieurs ont entraîné RT-2-X avec l'ensemble de données X-Embodiment, ils ont constaté que RT-2-X était trois fois plus performant que RT-2 en ce qui concerne les compétences émergentes.
En d'autres termes, le robot apprenait de nouvelles compétences qu'il ne possédait pas auparavant, sur la base des capacités que d'autres robots avaient apportées à l'ensemble de données. Le transfert de compétences entre différents types de robots pourrait changer la donne en matière de développement rapide de la robotique.
Ces résultats incitent à l'optimisme : nous verrons bientôt des robots dotés de compétences plus générales et capables d'en acquérir de nouvelles sans avoir été spécifiquement formés à cet effet.
DeepMind affirme que cette recherche pourrait être appliquée à la propriété d'auto-amélioration du RoboCat, son agent d'intelligence artificielle auto-améliorant pour la robotique.
La perspective de disposer d'un robot qui ne cesse de s'améliorer et d'acquérir de nouvelles compétences constituerait un avantage considérable dans des domaines tels que la fabrication, l'agriculture ou les soins de santé. Ces nouvelles compétences pourraient également être appliquées dans le industrie de la défense ce qui est peut-être une perspective moins attrayante, bien qu'inévitable.