Des chercheurs de la société DeepMind de Google ont franchi une étape importante dans le domaine de la robotique en entraînant avec succès des robots humanoïdes de 20 pouces de haut à jouer des matchs de football à un contre un.
Leur étudepubliée dans Science Robotics, explique comment ils ont utilisé l'apprentissage par renforcement profond (RL) pour enseigner aux robots des techniques complexes de locomotion et de jeu.
Les produits disponibles dans le commerce Robots Robotis OP3 a appris à courir, à donner des coups de pied, à bloquer, à se relever après une chute et à marquer des buts, le tout sans aucune programmation manuelle.
Au lieu de cela, les agents d'intelligence artificielle qui contrôlent les robots ont acquis ces capacités par essais et erreurs dans des environnements simulés, guidés par un système de récompense.
Voici comment fonctionne le système de football robotisé :
- Tout d'abord, ils ont formé des réseaux neuronaux distincts appelés "politiques de compétences" pour les mouvements fondamentaux tels que la marche, les coups de pied et le fait de se lever. Chaque compétence a été apprise dans un environnement ciblé qui récompensait le robot lorsqu'il maîtrisait cette capacité spécifique.
- Ensuite, à l'aide d'une technique appelée distillation des politiques, les politiques de compétences individuelles ont été fusionnées en un seul réseau de politiques principales. Cette politique unifiée peut activer la compétence appropriée en fonction de la situation.
- Les chercheurs ont ensuite optimisé la politique principale par le biais de l'auto-jeu, où le robot a joué des matchs simulés contre des versions antérieures de lui-même. Ce processus itératif a permis d'améliorer continuellement la stratégie et le jeu.
- Pour préparer la politique à un déploiement dans le monde réel, l'environnement de formation simulé a été randomisé en termes de facteurs tels que le frottement et la distribution de la masse du robot. Cela a permis à la politique d'être plus résistante aux variations physiques.
- Enfin, après un entraînement exclusivement en simulation, la politique finalisée a été téléchargée sur de vrais robots OP3, qui ont ensuite joué des matchs de football physiques sans qu'aucun réglage supplémentaire ne soit nécessaire.
Pour être honnête, il faut le voir pour le croire. Science populaireci-dessous.
Les résultats, comme vous pouvez le voir, sont tout à fait remarquables - dynamiques et agiles, ils tournent pour changer de direction et coordonnent leurs membres pour donner des coups de pied et s'équilibrer simultanément.
DeepMind décrit leur succès dans l'article : "L'agent résultant présente des capacités de mouvement robustes et dynamiques, telles que la récupération rapide d'une chute, la marche, la rotation et le coup de pied, et il passe de l'un à l'autre de manière fluide et efficace. Il a également appris à anticiper les mouvements du ballon et à bloquer les tirs adverses".
Comparée à une politique basée sur des règles plus standard programmée spécifiquement pour l'OP3, l'approche RL de DeepMind a permis d'obtenir des performances nettement supérieures.
Les robots formés à l'IA marchaient 181% plus vite, tournaient 302% plus vite, se remettaient plus rapidement d'une chute 63% et frappaient le ballon 34% plus fort.
Avec les avancées de DeepMind en matière de Entraînement de football optimisé par l'IA en partenariat avec le Liverpool FC, le football, nous nous dirigeons probablement vers une ère plus fortement numérisée dans le domaine du sport.
Ce n'est probablement qu'une question de temps avant que nous n'ayons une Robot League où des robots personnalisés s'affrontent dans des compétitions sportives de haut niveau.