A Google apresentou alguns resultados de testes interessantes do seu mais recente modelo de robô de visão-linguagem-ação (VLA), denominado Robotics Transformer 2 (RT-2).
A maior parte dos debates recentes sobre IA tem-se centrado em grandes modelos linguísticos como o ChatGPT e o Llama. As respostas que estes modelos fornecem, embora úteis, permanecem no ecrã do seu dispositivo. Com o RT-2, a Google está a trazer o poder da IA para o mundo físico. Um mundo onde os robôs de auto-aprendizagem poderão em breve fazer parte da nossa vida quotidiana.
Houve uma grande melhoria na destreza dos robots, mas estes continuam a necessitar de instruções de programação muito específicas para realizar até tarefas simples. Quando a tarefa muda, mesmo que ligeiramente, o programa tem de ser alterado.
Com o RT-2, a Google criou um modelo que permite a um robô classificar e aprender com as coisas que vê em combinação com as palavras que ouve. Em seguida, raciocina sobre as instruções que recebe e toma medidas físicas em resposta.
Com os LLMs, uma frase é dividida em tokens, essencialmente pedaços de palavras que permitem à IA compreender a frase. A Google utilizou este princípio e sistematizou os movimentos que um robô teria de fazer em resposta a um comando.
Os movimentos de um braço robótico com uma pinça, por exemplo, seriam divididos em tokens de alterações nas posições x e y ou rotações.
No passado, os robôs necessitavam normalmente de experiência em primeira mão para executar uma ação. Mas com o nosso novo modelo de visão-linguagem-ação, o RT-2, podem agora aprender a partir de texto e imagens da Web para enfrentar tarefas novas e complexas. Saiba mais ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 de julho de 2023
O que é que o RT-2 permite a um robô fazer?
Ser capaz de compreender o que vê e ouve e ter um raciocínio em cadeia significa que o robô não precisa de ser programado para novas tarefas.
Um exemplo que a Google deu no seu relatório DeepMind publicação no blogue sobre a RT-2 era "decidir que objeto poderia ser utilizado como martelo improvisado (uma pedra), ou que tipo de bebida é melhor para uma pessoa cansada (uma bebida energética)".
Nos testes que a Google realizou, submeteu um braço robótico e uma pinça a uma série de pedidos que exigiam compreensão da linguagem, visão e raciocínio, para poder tomar a ação adequada. Por exemplo, perante 2 sacos de batatas fritas em cima de uma mesa, com um deles ligeiramente acima da borda, foi dito ao robô para "apanhar o saco que está prestes a cair da mesa".
Isto pode parecer simples, mas a consciência contextual necessária para apanhar o saco correto é inovadora no mundo da robótica.
Para explicar como o RT-2 é muito mais avançado do que os LLMs normais, outro blogue da Google explicou que "um robô tem de ser capaz de reconhecer uma maçã no contexto, distingui-la de uma bola vermelha, compreender o seu aspeto e, mais importante, saber como apanhá-la".
Embora ainda seja cedo, a perspetiva de robôs domésticos ou industriais ajudarem numa variedade de tarefas em ambientes em mudança é empolgante. As aplicações no domínio da defesa também estão certamente a ser alvo de atenção.
O braço robótico da Google nem sempre acertava e tinha um grande botão vermelho de emergência para o caso de funcionar mal. Esperemos que os futuros robots venham com algo semelhante, caso um dia sintam que não estão satisfeitos com o patrão.