Компания Google продемонстрировала результаты испытаний своей новейшей модели робота, работающего по принципу "зрение-язык-действие" (VLA), под названием Robotics Transformer 2 (RT-2).
В последнее время большая часть обсуждений ИИ сосредоточена вокруг больших языковых моделей, таких как ChatGPT и Llama. Ответы, которые дают эти модели, хотя и полезны, но остаются на экране вашего устройства. С помощью RT-2 Google переносит мощь ИИ в физический мир. Мир, в котором самообучающиеся роботы вскоре могут стать частью нашей повседневной жизни.
Ловкость роботов значительно улучшилась, но для выполнения даже простых задач им по-прежнему требуются очень специфические инструкции по программированию. Когда задача меняется, даже незначительно, программа должна быть изменена.
С помощью RT-2 компания Google создала модель, позволяющую роботу классифицировать и обучаться на основе увиденных вещей и услышанных слов. Затем он принимает решение на основе полученных инструкций и выполняет физические действия в ответ.
С помощью LLM предложение разбивается на лексемы - небольшие фрагменты слов, которые позволяют ИИ понять предложение. Компания Google взяла этот принцип на вооружение и выделила токены для движений, которые робот должен совершить в ответ на команду.
Движения роботизированной руки с захватом, например, будут разбиты на лексемы изменений положений x и y или вращений.
В прошлом роботам обычно требовался непосредственный опыт, чтобы выполнить то или иное действие. Но с нашей новой моделью "зрение-язык-действие" RT-2 они теперь могут обучаться как на основе текста, так и на основе изображений из Интернета, чтобы решать новые и сложные задачи. Узнать больше ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 июля 2023 года
Что RT-2 позволяет делать роботу?
Способность понимать то, что он видит и слышит, и умение рассуждать по цепочке означает, что робота не нужно программировать для выполнения новых задач.
Один из примеров, который Google привела в своем докладе DeepMind Запись в блоге на RT-2 решали, какой предмет можно использовать в качестве импровизированного молотка (камень) или какой напиток лучше всего подходит для уставшего человека (энергетический напиток)".
В тестах, проведенных Google, роботизированная рука и захват выполняли ряд запросов, которые требовали понимания языка, зрения и рассуждений, чтобы робот мог предпринять соответствующие действия. Например, когда на столе лежали два пакета с чипсами, один из которых слегка выходил за край, роботу было приказано "поднять пакет, который вот-вот упадет со стола".
Это может показаться простым, но контекстная осведомленность, необходимая для того, чтобы подобрать нужную сумку, является революционным достижением в мире робототехники.
Чтобы объяснить, насколько RT-2 совершеннее обычных LLM, в блоге Google поясняется, что "робот должен уметь распознавать яблоко в контексте, отличать его от красного шарика, понимать, как оно выглядит, и, самое главное, знать, как его поднять".
Пока это только начало, но перспектива бытовых или промышленных роботов, помогающих выполнять разнообразные задачи в меняющихся условиях, не может не радовать. Оборонные приложения также почти наверняка привлекут внимание.
Роботизированная рука Google не всегда справлялась с поставленными задачами, поэтому на случай неполадок у нее была большая красная кнопка аварийного отключения. Будем надеяться, что будущие роботы будут оснащены чем-то подобным на случай, если однажды они почувствуют, что недовольны боссом.