Google ha presentado algunos interesantes resultados de pruebas de su último modelo de robot de visión-lenguaje-acción (VLA), llamado Robotics Transformer 2 (RT-2).
La mayor parte de los debates recientes sobre IA se han centrado en grandes modelos lingüísticos como ChatGPT y Llama. Las respuestas que proporcionan estos modelos, aunque útiles, permanecen en la pantalla de tu dispositivo. Con RT-2, Google lleva el poder de la IA al mundo físico. Un mundo en el que los robots autodidactas pronto podrían formar parte de nuestra vida cotidiana.
La destreza de los robots ha mejorado mucho, pero siguen necesitando instrucciones de programación muy específicas para realizar incluso tareas sencillas. Cuando la tarea cambia, aunque sea ligeramente, el programa tiene que cambiar.
Con RT-2, Google ha creado un modelo que permite a un robot clasificar y aprender de las cosas que ve en combinación con las palabras que oye. A continuación, razona sobre las instrucciones que recibe y realiza acciones físicas en respuesta.
Con los LLM, una frase se divide en tokens, es decir, trozos pequeños de palabras que permiten a la IA entender la frase. Google adoptó este principio y dividió en tokens los movimientos que tendría que hacer un robot en respuesta a una orden.
Los movimientos de un brazo robótico con una pinza, por ejemplo, se dividirían en fichas de cambios en las posiciones x e y o rotaciones.
En el pasado, los robots solían necesitar experiencia de primera mano para realizar una acción. Pero con nuestro nuevo modelo de visión-lenguaje-acción, RT-2, ahora pueden aprender tanto del texto como de las imágenes de la web para abordar tareas nuevas y complejas. Más información ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 de julio de 2023
¿Qué permite hacer el RT-2 a un robot?
Al ser capaz de entender lo que ve y oye y tener un razonamiento en cadena, el robot no necesita ser programado para nuevas tareas.
Un ejemplo que dio Google en su campaña DeepMind entrada de blog sobre RT-2 era "decidir qué objeto podía utilizarse como martillo improvisado (una roca), o qué tipo de bebida es mejor para una persona cansada (una bebida energética)".
En las pruebas realizadas por Google, se sometió a un brazo robótico y a una pinza a una serie de peticiones que requerían comprensión del lenguaje, visión y razonamiento, para poder realizar la acción adecuada. Por ejemplo, ante dos bolsas de patatas fritas sobre una mesa, una de las cuales estaba ligeramente sobre el borde, el robot recibió la orden de "coger la bolsa que está a punto de caerse de la mesa".
Puede parecer sencillo, pero el conocimiento del contexto necesario para recoger la bolsa correcta es revolucionario en el mundo de la robótica.
Para explicar hasta qué punto el RT-2 es más avanzado que los LLM normales, en otro blog de Google se explica que "un robot tiene que ser capaz de reconocer una manzana en su contexto, distinguirla de una bola roja, entender qué aspecto tiene y, lo más importante, saber cómo cogerla".
Aunque aún es pronto, la perspectiva de que robots domésticos o industriales ayuden a realizar diversas tareas en entornos cambiantes es apasionante. Las aplicaciones de defensa también están llamando la atención.
El brazo robótico de Google no siempre lo hacía bien y tenía un gran botón rojo de apagado de emergencia por si funcionaba mal. Esperemos que los futuros robots vengan con algo parecido por si algún día sienten que no están contentos con el jefe.