DeepMind desarrolla un modelo básico para construir entornos de juego en 2D

2 de abril de 2024

  • DeepMind entrenó un modelo básico para generar niveles de juego en 2D a partir de indicaciones de texto o imágenes
  • Denominado Genie, este modelo agiliza la creación de entornos 2D funcionales
  • Esto también ofrece la posibilidad de construir robots que comprendan correctamente nuevos entornos.
Juego de IA

Genie, de Google DeepMind, es un modelo generativo que traduce simples imágenes o mensajes de texto en mundos dinámicos e interactivos. 

Genie se entrenó con un extenso conjunto de datos de más de 200.000 horas de secuencias de vídeo de juegos, incluidos juegos de plataformas en 2D e interacciones robóticas en el mundo real. 

Este vasto conjunto de datos permitió a Genie comprender y generar la física, la dinámica y la estética de numerosos entornos y objetos.

El modelo final, documentado en un trabajo de investigacióncontiene 11.000 millones de parámetros para generar mundos virtuales interactivos a partir de imágenes en múltiples formatos o mensajes de texto. 

Así, puedes dar a Genie una imagen de tu salón o jardín y convertirla en un nivel de plataformas 2D jugable.

O garabatear un entorno 2D en un trozo de papel y convertirlo en un entorno jugable.

DeepMind AI
Genie puede funcionar como un entorno interactivo, aceptando diversas indicaciones, como imágenes generadas o bocetos dibujados a mano. Los usuarios pueden guiar el resultado del modelo proporcionando acciones latentes en cada paso temporal, que Genie utiliza para generar el siguiente fotograma de la secuencia a 1 FPS. Fuente: DeepMind vía ArXiv (acceso abierto).

Lo que diferencia a Genie de otros modelos de mundo es su capacidad para permitir a los usuarios interactuar con los entornos generados fotograma a fotograma.

Por ejemplo, a continuación puedes ver cómo Genie toma fotografías de entornos del mundo real y las convierte en niveles de juego en 2D.

DeepMind AI
Genie puede crear niveles de juego a partir de a) otros niveles de juego, b) bocetos dibujados a mano y c) fotografías de entornos del mundo real. Mira los niveles de juego (fila inferior) generados a partir de imágenes del mundo real (fila superior). Fuente: DeepMind.

Cómo funciona Genie

Genie es un "modelo de mundo fundacional" con tres componentes clave: un tokenizador espaciotemporal de vídeo, un modelo de dinámica autorregresiva y un modelo de acción latente (LAM) sencillo y escalable.

Así es como funciona:

  1. Transformadores espaciotemporales: Un elemento central de Genie son los transformadores espaciotemporales (ST), que procesan secuencias de fotogramas de vídeo. A diferencia de los transformadores tradicionales que manejan texto o imágenes estáticas, los transformadores ST están diseñados para comprender la progresión de los datos visuales a lo largo del tiempo, lo que los hace ideales para la generación de vídeo y entornos dinámicos.
  2. Modelo de acción latente (MLA): Genie comprende y predice acciones dentro de sus mundos generados a través del LAM. Este infiere las acciones potenciales que podrían ocurrir entre los fotogramas de un vídeo, aprendiendo un conjunto de "acciones latentes" directamente de los datos visuales. Esto permite a Genie controlar la progresión de los acontecimientos en entornos interactivos, a pesar de la ausencia de etiquetas de acción explícitas en los datos de entrenamiento.
  3. Tokenizador de vídeo y modelo dinámico: Para gestionar los datos de vídeo, Genie emplea un tokenizador de vídeo que comprime los fotogramas de vídeo en bruto en un formato más manejable de tokens discretos. Tras la tokenización, el modelo dinámico predice el siguiente conjunto de tokens de fotogramas, generando fotogramas posteriores en el entorno interactivo.

El equipo de DeepMind explicó lo siguiente sobre Genie: "Genie podría permitir a un gran número de personas generar sus propias experiencias de juego. Esto podría ser positivo para quienes deseen expresar su creatividad de una forma nueva, por ejemplo, los niños, que podrían diseñar y adentrarse en sus propios mundos imaginados".

En un experimento paralelo, cuando se le presentaron vídeos de brazos robóticos reales interactuando con objetos del mundo real, Genie demostró una asombrosa capacidad para descifrar las acciones que estos brazos podían realizar. Esto demuestra su potencial para la investigación robótica. 

Tim Rocktäschel, del equipo de Genie, describió el potencial abierto de Genie: "Es difícil predecir qué casos de uso serán posibles. Esperamos que proyectos como Genie acaben proporcionando a la gente nuevas herramientas para expresar su creatividad". 

DeepMind era consciente de los riesgos de divulgar este modelo de cimentación, por lo que afirmaba en el documento: "Hemos optado por no divulgar los puntos de control del modelo entrenado, el conjunto de datos de entrenamiento del modelo o ejemplos de esos datos para acompañar este documento o el sitio web."

"Nos gustaría tener la oportunidad de seguir colaborando con la comunidad investigadora (y de videojuegos) y garantizar que cualquier futuro lanzamiento de este tipo sea respetuoso, seguro y responsable".

Utilizar juegos para simular aplicaciones del mundo real

DeepMind ha utilizado videojuegos para varios proyectos de aprendizaje automático. 

Por ejemplo, en 2021, DeepMind construyó XLandun campo de juego virtual para probar enfoques de aprendizaje por refuerzo (RL) para agentes de IA generalistas. Aquí, los modelos de IA dominaban la cooperación y la resolución de problemas realizando tareas como mover obstáculos en entornos de juego abiertos. 

Luego, el mes pasado, SIMA (Scalable, Instructable, Multiworld Agent) fue diseñado para comprender y ejecutar instrucciones en lenguaje humano a través de diferentes juegos y escenarios. 

SIMA se entrenó con nueve videojuegos que requerían distintas habilidades, desde la navegación básica hasta el pilotaje de vehículos. 

Los entornos de juego ofrecen una caja de arena controlable y escalable para entrenar y probar modelos de IA.

La experiencia de DeepMind en juegos se remonta a 2014-2015, cuando desarrollaron un algoritmo para derrotar a humanos en juegos como Pong y Space Invaders, por no hablar de AlphaGo, que derrotó al jugador profesional Fan Hui en un tablero de 19×19 a tamaño real.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales