Компания DeepMind, принадлежащая Google, сотрудничала с 33 различными академическими лабораториями, чтобы создать набор данных для обучения искусственному интеллекту на основе 22 различных типов роботов.
Роботы очень хорошо умеют делать что-то одно. Если вы хотите, чтобы он делал что-то даже немного другое, робота нужно обучать с нуля. Конечная цель робототехники - создать робота, умеющего выполнять широкий спектр действий и способного самостоятельно обучаться новым навыкам.
Для обучения модели искусственного интеллекта необходим большой набор данных, связанных с целью моделирования. Языковые модели, такие как GPT-4 обучаются на огромном количестве записанных данных. Генераторы изображений, такие как ДАЛЛ-И 3 обучаются на большом количестве изображений.
В рамках проекта X-Embodiment компания DeepMind создала набор данных о действиях роботов на основе 22 различных типов роботов. Затем она использовала этот набор данных для обучения новых моделей на основе своих моделей роботов RT-1 и RT-2.
Данные для X-Embodiment были получены из "22 воплощений роботов, демонстрирующих более 500 навыков и 150 000 задач в более чем 1 миллионе эпизодов", согласно Пост компании DeepMind.
Представляем 𝗥𝗧-𝗫: обобщенную модель ИИ, которая поможет в освоении роботами новых навыков. 🤖
Чтобы обучить его, мы сотрудничали с 33 академическими лабораториями по всему миру, чтобы создать новый набор данных, содержащий опыт 22 различных типов роботов.
Узнайте больше: https://t.co/k6tE62gQGP pic.twitter.com/IXTy2g4Lty
- Google DeepMind (@GoogleDeepMind) 3 октября 2023 года
Более ранние результаты испытаний RT-1 и Модели RT-2 уже были впечатляющими, но DeepMind обнаружила, что версии RT-X работают значительно лучше благодаря общему характеру нового набора данных.
В ходе тестирования сравнивались робот, управляемый моделью, обученной для выполнения конкретной задачи, и тот же робот, управляемый моделью RT-1-X. RT-1-X показал в среднем на 50% лучше, чем модели, специально разработанные для таких задач, как открытие двери или прокладка кабеля.
RT-2, роботизированная модель Google "зрение-язык-действие" (VLA), позволяет роботам обучаться на основе веб-, вербальных и визуальных данных, а затем действовать без обучения. Когда инженеры обучили RT-2-X с помощью набора данных X-Embodiment, они обнаружили, что RT-2-X в три раза успешнее, чем RT-2, в освоении новых навыков.
Другими словами, робот осваивал новые навыки, которых у него раньше не было, основываясь на способностях, которые другие роботы внесли в набор данных. Передача навыков между различными типами роботов может стать переломным моментом для быстрого развития робототехники.
Эти результаты вселяют оптимизм: скоро мы увидим роботов, обладающих более общими навыками, а также способных обучаться новым навыкам без специального обучения.
DeepMind утверждает, что это исследование может быть применено к свойству самосовершенствования RoboCat, самосовершенствующийся агент ИИ для робототехники.
Перспектива иметь робота, который продолжает совершенствоваться и приобретать новые навыки, станет огромным преимуществом в таких областях, как производство, сельское хозяйство или здравоохранение. Эти новые навыки также могут быть применены в оборонная промышленность что, возможно, является менее привлекательной, хотя и неизбежной перспективой.