Исследователи из DeepMind компании Google достигли важной вехи в робототехнике, успешно обучив роботов-гуманоидов ростом 20 дюймов играть в футбол один на один.
Их исследованиеВ статье, опубликованной в журнале Science Robotics, подробно рассказывается о том, как они использовали глубокое обучение с подкреплением (RL) для обучения роботов сложным навыкам локомоции и игрового процесса.
Коммерчески доступный Роботы Robotis OP3 Научился бегать, бить, блокировать, вставать после падений и забивать голы - и все это без какого-либо ручного программирования.
Вместо этого агенты ИИ, управляющие роботами, приобретали эти способности методом проб и ошибок в смоделированной среде, руководствуясь системой вознаграждений.
Вот как работает роботизированная футбольная система:
- Сначала они обучили отдельные нейронные сети, называемые "политиками навыков", для таких базовых движений, как ходьба, удары ногами и вставание. Каждый навык осваивался в целенаправленной среде, которая вознаграждала робота за овладение конкретной способностью.
- Затем, используя технику, называемую дистилляцией политики, отдельные политики навыков были объединены в единую сеть основных политик. Эта единая политика могла активировать соответствующий навык в зависимости от ситуации.
- Затем исследователи продолжили оптимизацию основной политики с помощью самостоятельной игры, в которой робот играл в симуляторах против предыдущих версий самого себя. Этот итеративный процесс привел к постоянному совершенствованию стратегии и игрового процесса.
- Чтобы подготовить политику к внедрению в реальном мире, симулируемая тренировочная среда была рандомизирована с точки зрения таких факторов, как трение и распределение массы робота. Это помогло сделать политику более устойчивой к физическим изменениям.
- Наконец, после обучения исключительно в симуляции, готовая политика была загружена в реальных роботов OP3, которые затем сыграли физические футбольные матчи без дополнительной настройки.
Честно говоря, чтобы в это поверить, нужно это увидеть, так что смотрите Популярная наукаВидеоролики ниже.
Результаты, как вы можете видеть, весьма примечательны - динамичные и ловкие, вращающиеся, чтобы изменить направление, и координирующие свои конечности, чтобы одновременно бить и балансировать.
DeepMind описывает свой успех в статье: "Полученный агент демонстрирует надежные и динамичные навыки передвижения, такие как быстрое восстановление после падения, ходьба, повороты и удары ногами, и переходит от одного к другому плавно и эффективно. Он также научился предугадывать движения мяча и блокировать удары соперника".
По сравнению с более стандартной политикой на основе правил, разработанной специально для OP3, RL-подход DeepMind продемонстрировал значительно более высокую производительность.
Роботы, обученные ИИ, ходили на 181% быстрее, поворачивали на 302% быстрее, восстанавливались после падений на 63% быстрее и били по мячу на 34% сильнее.
Вместе с достижениями DeepMind в области Оптимизированный искусственным интеллектом футбольный тренер в партнерстве с футбольным клубом "Ливерпуль", мы, вероятно, движемся к более оцифрованной эре в спорте.
Возможно, это лишь вопрос времени, когда появится "Лига роботов", в которой роботы будут соревноваться в высокооктановых видах спорта.