Imagine uma IA que não se limita a compreender comandos, mas que os aplica, como um humano faria, numa série de ambientes 3D simulados.
É esse o objetivo do agente escalável, instrutível e multimundo (SIMA) da DeepMind.
Ao contrário da IA tradicional, que se pode destacar em tarefas discretas como jogos estratégicos ou resolução de problemas específicos, os agentes SIMA são treinados para interpretar instruções em linguagem humana e traduzi-las em acções utilizando um teclado e um rato, imitando a interação humana com um computador.
Isto significa que, quer a tarefa seja navegar através de uma paisagem digital, resolver puzzles ou interagir com objectos num jogo, a SIMA pretende compreender e executar estes comandos com a mesma intuição e adaptabilidade que uma pessoa teria.
Apresentação do SIMA: o primeiro agente de IA generalista a seguir instruções em linguagem natural numa vasta gama de ambientes virtuais 3D e jogos de vídeo. 🕹️
Consegue realizar tarefas semelhantes às de um ser humano e supera o desempenho de um agente treinado num único cenário. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 de março de 2024
O núcleo deste projeto é um conjunto de dados enorme e diversificado de jogos humanos em ambientes de investigação e jogos de vídeo comerciais.
O SIMA foi treinado e testado numa seleção de nove jogos de vídeo através de colaborações com oito estúdios de jogos, incluindo títulos bem conhecidos como No Man's Sky e Teardown. Cada jogo desafia a SIMA com diferentes competências, desde a navegação básica e a recolha de recursos até actividades mais complexas como a criação e a pilotagem de naves espaciais.
A formação do SIMA incluiu quatro ambientes de investigação para avaliar as suas capacidades de interação física e de manipulação de objectos.
Em termos de arquitetura, a SIMA utiliza modelos pré-treinados de visão e de previsão de vídeo, ajustados às definições 3D específicas da sua carteira de jogos.
Ao contrário das IAs de jogo tradicionais, a SIMA não requer acesso ao código fonte ou APIs personalizadas. Funciona com imagens no ecrã e instruções fornecidas pelo utilizador, utilizando acções do teclado e do rato para executar tarefas.
Na sua fase de avaliação, o SIMA demonstrou proficiência em 600 competências básicas que englobam a navegação, a interação com objectos e a utilização de menus.
O que distingue o SIMA é a sua generalidade. Esta IA não está a ser treinada para dominar um único jogo ou resolver um conjunto específico de problemas.
Em vez disso, a DeepMind está a ensiná-lo a ser adaptável, a compreender instruções e a agir de acordo com elas em diferentes mundos virtuais.
Tim Harley, da DeepMind, explicou: "Ainda é um projeto de investigação", mas, no futuro, "podemos imaginar um dia ter agentes como o SIMA a jogar ao nosso lado em jogos, connosco e com os nossos amigos".
O SIMA necessita apenas das imagens fornecidas pelo ambiente 3D e das instruções em linguagem natural dadas pelo utilizador. 🖱️
Com saídas de rato e teclado, é avaliado em 600 competências, abrangendo áreas como a navegação e a interação com objectos - como "virar à esquerda" ou "cortar uma árvore"... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 de março de 2024
SIMA é dominar a arte de compreender e de agir de acordo com as nossas instruções, baseando a linguagem na perceção e na ação.
A DeepMind tem uma herança de jogos que remonta a AlphaGo em 2014, que derrotou vários jogadores de renome do famoso e complexo jogo asiático Go.
No entanto, A SIMA vai mais longe do que os videojogos, aproximando-se do sonho de uma verdadeira inteligência, de uma verdadeira instrução Agentes de IA que esbatem as linhas entre a compreensão humana e a das máquinas.