DeepMind ontwikkelt een basismodel voor het bouwen van 2D spelomgevingen

2 april 2024

  • DeepMind heeft een basismodel getraind voor het genereren van 2D spelniveaus uit tekst- of beeldaanwijzingen
  • Dit model, Genie genaamd, stroomlijnt de creatie van functionele 2D-omgevingen
  • Dit biedt ook mogelijkheden voor het bouwen van robots die nieuwe omgevingen correct begrijpen.
AI-spel

Google DeepMind's Genie is een generatief model dat eenvoudige afbeeldingen of tekstaanwijzingen vertaalt naar dynamische, interactieve werelden. 

Genie is getraind op een uitgebreide dataset van meer dan 200.000 uur aan in-game videobeelden, waaronder gameplay van 2D-platformers en echte robotica-interacties. 

Dankzij deze uitgebreide dataset kon Genie de fysica, dynamica en esthetica van talloze omgevingen en objecten begrijpen en genereren.

Het uiteindelijke model, gedocumenteerd in een onderzoeksdocumentbevat 11 miljard parameters om interactieve virtuele werelden te genereren op basis van afbeeldingen in verschillende formaten of tekstaanwijzingen. 

Je kunt Genie dus een afbeelding van je woonkamer of tuin geven en er een speelbaar 2D-platformniveau van maken.

Of krabbel een 2D-omgeving op een stuk papier en zet het om in een speelbare spelomgeving.

DeepMind AI
Genie kan functioneren als een interactieve omgeving die verschillende aanwijzingen accepteert, zoals gegenereerde afbeeldingen of handgetekende schetsen. Gebruikers kunnen de uitvoer van het model sturen door bij elke tijdstap latente acties op te geven, die Genie vervolgens gebruikt om het volgende beeld in de reeks te genereren met 1 FPS. Bron: DeepMind via ArXiv (open access).

Wat Genie onderscheidt van andere wereldmodellen is de mogelijkheid om gebruikers per frame te laten interageren met de gegenereerde omgevingen.

Hieronder kun je bijvoorbeeld zien hoe Genie foto's van echte omgevingen maakt en deze omzet in 2D spellevels.

DeepMind AI
Genie kan speelvelden maken van a) andere speelvelden, b) handgetekende schetsen en c) foto's van echte omgevingen. Bekijk de speelvelden (onderste rij) die zijn gemaakt van afbeeldingen uit de echte wereld (bovenste rij). Bron: DeepMind.

Hoe Genie werkt

Genie is een "foundation world model" met drie hoofdcomponenten: een spatiotemporele video tokenizer, een autoregressief dynamics model en een eenvoudig, schaalbaar latent actiemodel (LAM).

Zo werkt het:

  1. Spatiotemporele transformatoren: Centraal in Genie staan spatiotemporele (ST) transformatoren, die sequenties van videoframes verwerken. In tegenstelling tot traditionele transformers die tekst of statische afbeeldingen verwerken, zijn ST transformers ontworpen om de progressie van visuele gegevens in de tijd te begrijpen, waardoor ze ideaal zijn voor het genereren van video's en dynamische omgevingen.
  2. Latent Actiemodel (LAM): Genie begrijpt en voorspelt acties binnen de gegenereerde werelden door middel van het LAM. Dit leidt de mogelijke acties in die kunnen plaatsvinden tussen frames in een video, waarbij een set van "latente acties" direct uit de visuele data wordt geleerd. Hierdoor kan Genie het verloop van gebeurtenissen in interactieve omgevingen sturen, ondanks de afwezigheid van expliciete actielabels in de trainingsdata.
  3. Video tokenizer en dynamisch model: Om videogegevens te beheren, gebruikt Genie een video tokenizer die ruwe videoframes comprimeert tot een beter hanteerbaar formaat van discrete tokens. Na het tokenen voorspelt het dynamisch model de volgende reeks frames, waardoor de volgende frames in de interactieve omgeving worden gegenereerd.

Het DeepMind-team legt uit over Genie: "Genie zou een groot aantal mensen in staat kunnen stellen om hun eigen game-achtige ervaringen te genereren. Dit kan positief zijn voor mensen die hun creativiteit op een nieuwe manier willen uiten, bijvoorbeeld kinderen die kunnen ontwerpen en in hun eigen denkbeeldige werelden kunnen stappen."

In een nevenexperiment toonde Genie, toen hij video's te zien kreeg van echte robotarmen die echte objecten vasthielden, een griezelig vermogen om de acties te ontcijferen die deze armen konden uitvoeren. Dit toont potentiële toepassingen in roboticaonderzoek aan. 

Tim Rocktäschel van het Genie-team beschreef het open potentieel van Genie: "Het is moeilijk te voorspellen welke use cases mogelijk zullen worden gemaakt. We hopen dat projecten zoals Genie mensen uiteindelijk nieuwe hulpmiddelen zullen bieden om hun creativiteit te uiten." 

DeepMind was zich bewust van de risico's van het vrijgeven van dit funderingsmodel en stelde in het artikel: "We hebben ervoor gekozen om de getrainde controlepunten van het model, de trainingsdataset van het model of voorbeelden van die gegevens niet vrij te geven als begeleiding bij dit artikel of de website."

"We willen graag de kans krijgen om verder samen te werken met de onderzoeksgemeenschap (en videogamegemeenschap) en ervoor te zorgen dat toekomstige releases respectvol, veilig en verantwoord zijn."

Games gebruiken om echte toepassingen te simuleren

DeepMind heeft videogames gebruikt voor verschillende projecten op het gebied van machinaal leren. 

Bijvoorbeeld in 2021, DeepMind heeft XLand gebouwdEen virtuele speeltuin voor het testen van RL-benaderingen (reinforcement learning) voor generalistische AI-agenten. Hier leerden AI-modellen samenwerken en problemen oplossen door taken uit te voeren zoals het verplaatsen van obstakels in open spelomgevingen. 

Vorige maand nog, SIMA (Scalable, Instructable, Multiworld Agent) is ontworpen om menselijke taalinstructies in verschillende spellen en scenario's te begrijpen en uit te voeren. 

SIMA werd getraind met behulp van negen videospellen die verschillende vaardigheden vereisen, van basisnavigatie tot het besturen van voertuigen. 

Spelomgevingen bieden een controleerbare, schaalbare zandbak voor het trainen en testen van AI-modellen.

DeepMind's expertise op het gebied van games gaat terug tot 2014-2015, toen ze een algoritme ontwikkelden om mensen te verslaan in spellen als Pong en Space Invaders, om nog maar te zwijgen van AlphaGo, dat profspeler Fan Hui versloeg op een bord van 19×19.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden