A IA da Google transforma a visão e a linguagem em acções robóticas

29 de julho de 2023

Google AI RT-2 Robótica

A Google apresentou alguns resultados de testes interessantes do seu mais recente modelo de robô de visão-linguagem-ação (VLA), denominado Robotics Transformer 2 (RT-2).

A maior parte dos debates recentes sobre IA tem-se centrado em grandes modelos linguísticos como o ChatGPT e o Llama. As respostas que estes modelos fornecem, embora úteis, permanecem no ecrã do seu dispositivo. Com o RT-2, a Google está a trazer o poder da IA para o mundo físico. Um mundo onde os robôs de auto-aprendizagem poderão em breve fazer parte da nossa vida quotidiana.

Houve uma grande melhoria na destreza dos robots, mas estes continuam a necessitar de instruções de programação muito específicas para realizar até tarefas simples. Quando a tarefa muda, mesmo que ligeiramente, o programa tem de ser alterado.

Com o RT-2, a Google criou um modelo que permite a um robô classificar e aprender com as coisas que vê em combinação com as palavras que ouve. Em seguida, raciocina sobre as instruções que recebe e toma medidas físicas em resposta.

Com os LLMs, uma frase é dividida em tokens, essencialmente pedaços de palavras que permitem à IA compreender a frase. A Google utilizou este princípio e sistematizou os movimentos que um robô teria de fazer em resposta a um comando.

Os movimentos de um braço robótico com uma pinça, por exemplo, seriam divididos em tokens de alterações nas posições x e y ou rotações.

O que é que o RT-2 permite a um robô fazer?

Ser capaz de compreender o que vê e ouve e ter um raciocínio em cadeia significa que o robô não precisa de ser programado para novas tarefas. 

Um exemplo que a Google deu no seu relatório DeepMind publicação no blogue sobre a RT-2 era "decidir que objeto poderia ser utilizado como martelo improvisado (uma pedra), ou que tipo de bebida é melhor para uma pessoa cansada (uma bebida energética)".

Nos testes que a Google realizou, submeteu um braço robótico e uma pinça a uma série de pedidos que exigiam compreensão da linguagem, visão e raciocínio, para poder tomar a ação adequada. Por exemplo, perante 2 sacos de batatas fritas em cima de uma mesa, com um deles ligeiramente acima da borda, foi dito ao robô para "apanhar o saco que está prestes a cair da mesa".

Isto pode parecer simples, mas a consciência contextual necessária para apanhar o saco correto é inovadora no mundo da robótica. 

Para explicar como o RT-2 é muito mais avançado do que os LLMs normais, outro blogue da Google explicou que "um robô tem de ser capaz de reconhecer uma maçã no contexto, distingui-la de uma bola vermelha, compreender o seu aspeto e, mais importante, saber como apanhá-la".

Embora ainda seja cedo, a perspetiva de robôs domésticos ou industriais ajudarem numa variedade de tarefas em ambientes em mudança é empolgante. As aplicações no domínio da defesa também estão certamente a ser alvo de atenção.

O braço robótico da Google nem sempre acertava e tinha um grande botão vermelho de emergência para o caso de funcionar mal. Esperemos que os futuros robots venham com algo semelhante, caso um dia sintam que não estão satisfeitos com o patrão. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições