Os investigadores da DeepMind da Google alcançaram um marco na robótica ao treinarem com sucesso robôs humanóides de 20 polegadas de altura para jogarem jogos de futebol um contra um.
Os seus estudopublicado na revista Science Robotics, explica como utilizaram a aprendizagem por reforço profundo (RL) para ensinar aos robôs capacidades complexas de locomoção e de jogo.
Os produtos disponíveis no mercado Robôs Robotis OP3 aprendeu a correr, pontapear, bloquear, levantar-se de quedas e marcar golos - tudo isto sem qualquer programação manual.
Em vez disso, os agentes de IA que controlam os robôs adquiriram estas capacidades através de tentativa e erro em ambientes simulados, guiados por um sistema de recompensa.
Eis como funciona o sistema de futebol robótico:
- Primeiro, treinaram redes neuronais separadas, chamadas "políticas de competências", para movimentos fundamentais como andar, dar pontapés e levantar-se. Cada competência foi aprendida num ambiente específico que recompensava o robô por dominar essa capacidade específica.
- Em seguida, utilizando uma técnica chamada destilação de políticas, as políticas de competências individuais foram fundidas numa única rede de políticas principais. Esta política unificada pode ativar a competência adequada em função da situação.
- Os investigadores optimizaram ainda mais a política principal através do auto-jogo, em que o robô jogou partidas simuladas contra versões anteriores de si próprio. Este processo iterativo levou a melhorias contínuas na estratégia e na jogabilidade.
- Para preparar a política para a implementação no mundo real, o ambiente de treino simulado foi aleatorizado em termos de factores como a fricção e a distribuição da massa do robô. Isto ajudou a política a tornar-se mais robusta às variações físicas.
- Finalmente, depois de treinar exclusivamente em simulação, a política finalizada foi transferida para robôs OP3 reais, que jogaram jogos de futebol físicos sem necessidade de afinação adicional.
Para ser sincero, é preciso ver para crer, por isso, veja Ciência Popularvídeos abaixo.
Os resultados, como se pode ver, são notáveis - dinâmicos e ágeis, girando para mudar de direção e coordenando os seus membros para dar pontapés e equilibrar-se simultaneamente.
O DeepMind descreve o seu sucesso no artigo: "O agente resultante apresenta capacidades de movimento robustas e dinâmicas, como a recuperação rápida de quedas, andar, virar e pontapear, e transita entre elas de uma forma suave e eficiente. Também aprendeu a antecipar os movimentos da bola e a bloquear os remates dos adversários".
Em comparação com uma política baseada em regras mais padrão programada especificamente para o OP3, a abordagem RL do DeepMind apresentou um desempenho muito superior.
Os robôs treinados com IA andaram 181% mais depressa, viraram-se 302% mais depressa, recuperaram de quedas 63% mais depressa e chutaram a bola 34% mais depressa.
Juntamente com os avanços da DeepMind em Treino de futebol optimizado por IA em parceria com o Liverpool FC, o futebol, estamos provavelmente a caminhar para uma era mais digitalizada no desporto.
Provavelmente, é apenas uma questão de tempo até termos uma Liga de Robôs onde robôs personalizados se enfrentam em desportos de alta competição.