Imagine una IA que no sólo entienda órdenes, sino que las aplique, como lo haría un ser humano, en una serie de entornos tridimensionales simulados.
Ese es el objetivo del Agente Multimundo Escalable e Instructable (SIMA) de DeepMind.
A diferencia de la IA tradicional, que puede destacar en tareas discretas como juegos estratégicos o resolución de problemas concretos, los agentes de SIMA están entrenados para interpretar instrucciones en lenguaje humano y traducirlas en acciones mediante un teclado y un ratón, imitando la interacción humana con un ordenador.
Esto significa que, tanto si la tarea consiste en navegar por un paisaje digital como en resolver rompecabezas o interactuar con objetos en un juego, SIMA pretende comprender y ejecutar estas órdenes con la misma intuición y capacidad de adaptación que lo haría una persona.
Presentamos SIMA: el primer agente de IA generalista que sigue instrucciones en lenguaje natural en una amplia gama de entornos virtuales 3D y videojuegos. 🕹️
Puede completar tareas similares a las de un humano y supera a un agente entrenado en un solo entorno. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 de marzo de 2024
El núcleo de este proyecto es un enorme y diverso conjunto de datos de jugabilidad humana en entornos de investigación y videojuegos comerciales.
SIMA se formó y probó en una selección de nueve videojuegos a través de colaboraciones con ocho estudios de juegos, entre los que se incluyen títulos tan conocidos como No Man's Sky y Teardown. Cada juego desafía a SIMA con diferentes habilidades, desde la navegación básica y la recolección de recursos hasta actividades más complejas como la artesanía y el pilotaje de naves espaciales.
El entrenamiento de SIMA incluyó cuatro entornos de investigación para evaluar sus habilidades de interacción física y manipulación de objetos.
En cuanto a la arquitectura, SIMA utiliza modelos de visión y predicción de vídeo preentrenados y ajustados a las configuraciones 3D específicas de su cartera de juegos.
A diferencia de las IA de juego tradicionales, SIMA no requiere acceso al código fuente ni API personalizadas. Funciona con imágenes en pantalla e instrucciones proporcionadas por el usuario, empleando acciones del teclado y el ratón para ejecutar las tareas.
En su fase de evaluación, SIMA demostró su competencia en 600 habilidades básicas que abarcan la navegación, la interacción con objetos y el uso de menús.
Lo que distingue a SIMA es su generalidad. Esta IA no se entrena para dominar un solo juego o resolver un conjunto concreto de problemas.
En cambio, DeepMind le está enseñando a ser adaptable, a entender instrucciones y a actuar en consecuencia en diferentes mundos virtuales.
Tim Harley, de DeepMind, explicó: "Todavía es en gran medida un proyecto de investigación", pero en el futuro, "uno podría imaginarse un día teniendo agentes como SIMA jugando a tu lado en juegos contigo y con tus amigos".
SIMA sólo necesita las imágenes proporcionadas por el entorno 3D y las instrucciones en lenguaje natural dadas por el usuario. 🖱️
Con salidas de ratón y teclado, se evalúan 600 destrezas, que abarcan áreas como la navegación y la interacción con objetos, como "girar a la izquierda" o "talar un árbol"... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 de marzo de 2024
SIMA es dominar el arte de comprender nuestras instrucciones y actuar en consecuencia, basando el lenguaje en la percepción y la acción.
DeepMind tiene una larga tradición de juegos que se remonta a AlphaGo en 2014que llegó a derrotar a varios jugadores de alto nivel del famoso y complejo juego asiático Go.
Sin embargo, SIMA va más allá de los videojuegos y se acerca al sueño de un sistema realmente inteligente e instructivo. Agentes de IA que difuminan los límites entre la comprensión humana y la de las máquinas.