Os investigadores da DeepMind combinaram a IA com um robô sofisticado que pode aprender novas tarefas a partir de apenas 100 demonstrações.
O RoboCat, um agente robótico inovador de IA, aprende novas tarefas a partir de apenas 100 demonstrações, melhorando as suas capacidades através de dados auto-gerados.
Apesar do seu nome, o RoboCat é um braço robótico concebido para realizar tarefas complexas, como empilhar blocos de cores diferentes numa determinada ordem. Veja as demonstrações do DeepMind abaixo.
O inovador ciclo de treino de auto-aperfeiçoamento do robô representa um avanço significativo no domínio da robótica.
RoboCat utiliza O modelo multimodal Gato da DeepMindque pode processar linguagem, imagens e acções em ambientes simulados e físicos.
Para o treino do RoboCat, os investigadores seleccionaram um enorme conjunto de dados de sequências de imagens e conjuntos de acções de vários braços robóticos que executam centenas de tarefas. Após o treino inicial, o RoboCat entra num ciclo de "auto-aperfeiçoamento", enfrentando novas tarefas, o que leva a um maior aperfeiçoamento.
O ciclo consiste nas seguintes etapas:
- Recolha de 100 a 1000 demonstrações de uma nova tarefa demonstrada com um braço robótico operado por um humano.
- Afinação do RoboCat na nova tarefa para criar um agente especializado.
- O agente especializado pratica então a nova tarefa ou braço cerca de 10.000 vezes, o que resulta na geração de mais dados de treino.
- Tanto a demonstração como os dados auto-gerados são depois incorporados no conjunto de dados existente do RoboCat.
- Finalmente, uma versão actualizada do RoboCat é treinada utilizando o conjunto de dados aumentado.
Este processo de formação contínua e de auto-aperfeiçoamento significa que o conjunto de dados do RoboCat é excecionalmente diversificado.
O RoboCat adapta-se e aprende com as tarefas
Nomeadamente, o RoboCat provou ser adaptável, aprendendo rapidamente a operar novos braços robóticos, alguns com configurações diferentes daquelas em que foi inicialmente treinado.
Por exemplo, embora o treino do RoboCat tenha inicialmente envolvido braços com pinças de duas pontas, este adaptou-se com sucesso a um braço mais complexo com uma pinça de três dedos.
Numa experiência, depois de observar 1000 demonstrações controladas por humanos, o RoboCat manobrou com sucesso um novo braço para apanhar pequenas engrenagens em 86% das vezes. Também se adaptou para resolver tarefas complexas que exigem precisão e compreensão, como extrair a fruta correcta de uma tigela e resolver um puzzle de correspondência de formas.
As capacidades do RoboCat não se estabilizam - ele torna-se cada vez mais capaz à medida que aprende.
A versão inicial do RoboCat conseguiu realizar tarefas não vistas 36% do tempo após aprender com 500 demonstrações por tarefa, enquanto a versão final mais do que duplicou a sua taxa de sucesso para 74%.
O RobotCat aproxima-nos um pouco mais da criação de robôs versáteis e de uso geral. A aprendizagem rápida, a adaptabilidade e o auto-aperfeiçoamento são pré-requisitos para a construção de robôs inteligentes que se integrem no seu ambiente.
Embora o modelo Gato do RobotCat esteja atualmente confinado a um braço, essas IAs acabarão por controlar vários membros, detectando e reagindo ao seu ambiente.