A DeepMind da Google trabalhou com 33 laboratórios académicos diferentes para criar um conjunto de dados de treino de IA baseado em 22 tipos de robôs diferentes.
Os robôs são muito bons a fazer uma coisa específica. Se quisermos que ele faça algo ligeiramente diferente, o robô tem de ser treinado de raiz. O objetivo final da robótica é ter um robô que seja bom numa gama geral de acções com a capacidade de aprender novas competências por si próprio.
Para treinar um modelo de IA é necessário um grande conjunto de dados relacionados com o objetivo do modelo. Modelos linguísticos como GPT-4 são treinados em grandes quantidades de dados escritos. Geradores de imagens como DALL-E 3 são treinados com grandes quantidades de imagens.
Com o X-Embodiment, a DeepMind criou um conjunto de dados de acções robóticas com base em 22 tipos diferentes de robôs. Em seguida, utilizou esse conjunto de dados para treinar novos modelos baseados nos seus modelos robóticos RT-1 e RT-2.
Os dados para a X-Embodiment foram obtidos a partir de "22 formas de realização de robôs, demonstrando mais de 500 competências e 150 000 tarefas em mais de 1 milhão de episódios", de acordo com Publicação da DeepMind.
Apresentamos o 𝗥𝗧-𝗫: um modelo de IA generalista para ajudar a melhorar a forma como os robots podem aprender novas competências. 🤖
Para o treinar, estabelecemos uma parceria com 33 laboratórios académicos de todo o mundo para criar um novo conjunto de dados com experiências adquiridas com 22 tipos de robôs diferentes.
Para saber mais: https://t.co/k6tE62gQGP pic.twitter.com/IXTy2g4Lty
- Google DeepMind (@GoogleDeepMind) 3 de outubro de 2023
Os resultados dos ensaios anteriores do RT-1 e Modelos RT-2 já eram impressionantes, mas a DeepMind descobriu que as versões RT-X tinham um desempenho significativamente melhor devido à natureza geral do novo conjunto de dados.
Os testes envolveram a comparação de um robô controlado por um modelo treinado para uma tarefa específica com esse mesmo robô controlado pelo modelo RT-1-X. O RT-1-X teve um desempenho médio 50% melhor do que os modelos concebidos especificamente para tarefas como abrir uma porta ou passar um cabo.
O RT-2, o modelo robótico de visão-linguagem-ação (VLA) da Google, permite que os robôs aprendam a partir de dados da Web, verbais e visuais e depois actuem sem serem treinados. Quando os engenheiros treinaram o RT-2-X com o conjunto de dados X-Embodiment, descobriram que o RT-2-X tinha três vezes mais êxito do que o RT-2 em competências emergentes.
Por outras palavras, o robô estava a aprender novas competências que não possuía antes, com base nas capacidades que outros robôs tinham contribuído para o conjunto de dados. A transferência de competências entre diferentes tipos de robôs pode ser um fator de mudança no desenvolvimento rápido da robótica.
Estes resultados são motivo de otimismo, na medida em que, em breve, veremos robôs com competências mais gerais, bem como a capacidade de aprender novas competências sem serem especificamente treinados para tal.
A DeepMind afirma que esta investigação pode ser aplicada à propriedade de auto-aperfeiçoamento do RoboCatO sistema de inteligência artificial para robótica, que se auto-aperfeiçoa.
A perspetiva de ter um robô que continua a melhorar e a aprender novas competências seria uma enorme vantagem em domínios como a indústria transformadora, a agricultura ou os cuidados de saúde. Essas novas competências poderiam igualmente ser aplicadas na indústria da defesa o que é talvez uma perspetiva menos apelativa, se bem que inevitável.