ИИ от Google превращает зрение и язык в действия роботов

29 июля 2023 года

Google AI RT-2 Robotics

Компания Google продемонстрировала результаты испытаний своей новейшей модели робота, работающего по принципу "зрение-язык-действие" (VLA), под названием Robotics Transformer 2 (RT-2).

В последнее время большая часть обсуждений ИИ сосредоточена вокруг больших языковых моделей, таких как ChatGPT и Llama. Ответы, которые дают эти модели, хотя и полезны, но остаются на экране вашего устройства. С помощью RT-2 Google переносит мощь ИИ в физический мир. Мир, в котором самообучающиеся роботы вскоре могут стать частью нашей повседневной жизни.

Ловкость роботов значительно улучшилась, но для выполнения даже простых задач им по-прежнему требуются очень специфические инструкции по программированию. Когда задача меняется, даже незначительно, программа должна быть изменена.

С помощью RT-2 компания Google создала модель, позволяющую роботу классифицировать и обучаться на основе увиденных вещей и услышанных слов. Затем он принимает решение на основе полученных инструкций и выполняет физические действия в ответ.

С помощью LLM предложение разбивается на лексемы - небольшие фрагменты слов, которые позволяют ИИ понять предложение. Компания Google взяла этот принцип на вооружение и выделила токены для движений, которые робот должен совершить в ответ на команду.

Движения роботизированной руки с захватом, например, будут разбиты на лексемы изменений положений x и y или вращений.

Что RT-2 позволяет делать роботу?

Способность понимать то, что он видит и слышит, и умение рассуждать по цепочке означает, что робота не нужно программировать для выполнения новых задач. 

Один из примеров, который Google привела в своем докладе DeepMind Запись в блоге на RT-2 решали, какой предмет можно использовать в качестве импровизированного молотка (камень) или какой напиток лучше всего подходит для уставшего человека (энергетический напиток)".

В тестах, проведенных Google, роботизированная рука и захват выполняли ряд запросов, которые требовали понимания языка, зрения и рассуждений, чтобы робот мог предпринять соответствующие действия. Например, когда на столе лежали два пакета с чипсами, один из которых слегка выходил за край, роботу было приказано "поднять пакет, который вот-вот упадет со стола".

Это может показаться простым, но контекстная осведомленность, необходимая для того, чтобы подобрать нужную сумку, является революционным достижением в мире робототехники. 

Чтобы объяснить, насколько RT-2 совершеннее обычных LLM, в блоге Google поясняется, что "робот должен уметь распознавать яблоко в контексте, отличать его от красного шарика, понимать, как оно выглядит, и, самое главное, знать, как его поднять".

Пока это только начало, но перспектива бытовых или промышленных роботов, помогающих выполнять разнообразные задачи в меняющихся условиях, не может не радовать. Оборонные приложения также почти наверняка привлекут внимание.

Роботизированная рука Google не всегда справлялась с поставленными задачами, поэтому на случай неполадок у нее была большая красная кнопка аварийного отключения. Будем надеяться, что будущие роботы будут оснащены чем-то подобным на случай, если однажды они почувствуют, что недовольны боссом. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения