Открытый набор данных X-Embodiment, модель RT-X - скачок для роботов ИИ

Компания DeepMind, принадлежащая Google, сотрудничала с 33 различными академическими лабораториями, чтобы создать набор данных для обучения искусственному интеллекту на основе 22 различных типов роботов.

Роботы очень хорошо умеют делать что-то одно. Если вы хотите, чтобы он делал что-то даже немного другое, робота нужно обучать с нуля. Конечная цель робототехники - создать робота, умеющего выполнять широкий спектр действий и способного самостоятельно обучаться новым навыкам.

Для обучения модели искусственного интеллекта необходим большой набор данных, связанных с целью моделирования. Языковые модели, такие как GPT-4 обучаются на огромном количестве записанных данных. Генераторы изображений, такие как ДАЛЛ-И 3 обучаются на большом количестве изображений.

В рамках проекта X-Embodiment компания DeepMind создала набор данных о действиях роботов на основе 22 различных типов роботов. Затем она использовала этот набор данных для обучения новых моделей на основе своих моделей роботов RT-1 и RT-2.

Данные для X-Embodiment были получены из "22 воплощений роботов, демонстрирующих более 500 навыков и 150 000 задач в более чем 1 миллионе эпизодов", согласно Пост компании DeepMind.

Представляем 𝗥𝗧-𝗫: обобщенную модель ИИ, которая поможет в освоении роботами новых навыков. 🤖

Чтобы обучить его, мы сотрудничали с 33 академическими лабораториями по всему миру, чтобы создать новый набор данных, содержащий опыт 22 различных типов роботов.

Узнайте больше: https://t.co/k6tE62gQGP pic.twitter.com/IXTy2g4Lty

- Google DeepMind (@GoogleDeepMind) 3 октября 2023 года

Более ранние результаты испытаний RT-1 и Модели RT-2 уже были впечатляющими, но DeepMind обнаружила, что версии RT-X работают значительно лучше благодаря общему характеру нового набора данных.

В ходе тестирования сравнивались робот, управляемый моделью, обученной для выполнения конкретной задачи, и тот же робот, управляемый моделью RT-1-X. RT-1-X показал в среднем на 50% лучше, чем модели, специально разработанные для таких задач, как открытие двери или прокладка кабеля.

RT-2, роботизированная модель Google "зрение-язык-действие" (VLA), позволяет роботам обучаться на основе веб-, вербальных и визуальных данных, а затем действовать без обучения. Когда инженеры обучили RT-2-X с помощью набора данных X-Embodiment, они обнаружили, что RT-2-X в три раза успешнее, чем RT-2, в освоении новых навыков.

RT-2-X демонстрирует понимание пространственных отношений между объектами. Источник: DeepMind

Другими словами, робот осваивал новые навыки, которых у него раньше не было, основываясь на способностях, которые другие роботы внесли в набор данных. Передача навыков между различными типами роботов может стать переломным моментом для быстрого развития робототехники.

Эти результаты вселяют оптимизм: скоро мы увидим роботов, обладающих более общими навыками, а также способных обучаться новым навыкам без специального обучения.

DeepMind утверждает, что это исследование может быть применено к свойству самосовершенствования RoboCat, самосовершенствующийся агент ИИ для робототехники.

Перспектива иметь робота, который продолжает совершенствоваться и приобретать новые навыки, станет огромным преимуществом в таких областях, как производство, сельское хозяйство или здравоохранение. Эти новые навыки также могут быть применены в оборонная промышленность что, возможно, является менее привлекательной, хотя и неизбежной перспективой.

Открытый набор данных X-Embodiment, модель RT-X - скачок для роботов с искусственным интеллектом

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter