DeepMind utvecklar en grundmodell för att bygga 2D-spelmiljöer

2 april 2024

  • DeepMind tränade en grundmodell för att generera 2D-spelnivåer från text- eller bildmeddelanden
  • Denna modell, som fått namnet Genie, effektiviserar skapandet av funktionella 2D-miljöer
  • Detta ger också potential för att bygga robotar som förstår nya miljöer på ett korrekt sätt
AI-spel

Google DeepMinds Genie är en generativ modell som översätter enkla bilder eller textmeddelanden till dynamiska, interaktiva världar. 

Genie tränades på ett omfattande dataset med över 200.000 timmar videofilmer från spel, inklusive spel från 2D-plattformarspel och robotinteraktioner i verkligheten. 

Med hjälp av denna stora datamängd kunde Genie förstå och generera fysik, dynamik och estetik i många olika miljöer och objekt.

Den slutgiltiga modellen, dokumenterad i en forskningsrapportinnehåller 11 miljarder parametrar för att generera interaktiva virtuella världar från antingen bilder i flera format eller textmeddelanden. 

Du kan alltså mata Genie med en bild av ditt vardagsrum eller din trädgård och förvandla den till en spelbar 2D-plattformsnivå.

Eller klottra ner en 2D-miljö på ett papper och omvandla den till en spelbar spelmiljö.

DeepMind AI
Genie kan fungera som en interaktiv miljö som tar emot olika uppmaningar, t.ex. genererade bilder eller handritade skisser. Användarna kan styra modellens utdata genom att tillhandahålla latenta åtgärder vid varje tidssteg, som Genie sedan använder för att generera nästa bild i sekvensen med 1 FPS. Källa: DeepMind via ArXiv DeepMind via ArXiv (öppen tillgång).

Det som skiljer Genie från andra världsmodeller är möjligheten att låta användarna interagera med de genererade miljöerna på en ram-för-ram-basis.

Nedan kan du till exempel se hur Genie tar fotografier av verkliga miljöer och förvandlar dem till 2D-spelnivåer.

DeepMind AI
Genie kan skapa spelnivåer från a) andra spelnivåer, b) handritade skisser och c) fotografier av verkliga miljöer. Se spelnivåerna (nedre raden) som genererats från verkliga bilder (övre raden). Källa: DeepMind: DeepMind.

Hur Genie fungerar

Genie är en "grundläggande världsmodell" med tre nyckelkomponenter: en spatiotemporal videotokenizer, en autoregressiv dynamikmodell och en enkel, skalbar latent handlingsmodell (LAM).

Så här fungerar det:

  1. Spatiotemporala transformatorer: Centralt i Genie är spatiotemporala (ST) transformatorer, som bearbetar sekvenser av videobilder. Till skillnad från traditionella transformatorer som hanterar text eller statiska bilder är ST-transformatorer utformade för att förstå hur visuella data utvecklas över tiden, vilket gör dem idealiska för generering av video och dynamiska miljöer.
  2. Latent handlingsmodell (LAM): Genie förstår och förutser handlingar i sina genererade världar genom LAM. Den drar slutsatser om de potentiella åtgärder som kan inträffa mellan bildrutorna i en video och lär sig en uppsättning "latenta åtgärder" direkt från de visuella data. Detta gör det möjligt för Genie att styra händelseförloppet i interaktiva miljöer, trots att det inte finns några explicita handlingsetiketter i träningsdatan.
  3. Tokenizer och dynamikmodell för video: För att hantera videodata använder Genie en videotokenizer som komprimerar råa videobilder till ett mer hanterbart format av diskreta tokens. Efter tokeniseringen förutspår dynamikmodellen nästa uppsättning bildtokens, vilket genererar efterföljande bildrutor i den interaktiva miljön.

DeepMind-teamet förklarade om Genie: "Genie kan göra det möjligt för en stor mängd människor att skapa sina egna spelliknande upplevelser. Detta kan vara positivt för dem som vill uttrycka sin kreativitet på ett nytt sätt, till exempel barn som kan designa och kliva in i sina egna föreställningsvärldar."

I ett sidoexperiment, när Genie presenterades för videor av riktiga robotarmar som hanterade verkliga föremål, visade han en kuslig förmåga att tyda de åtgärder som dessa armar kunde utföra. Detta visar på potentiella användningsområden inom robotikforskning. 

Tim Rocktäschel från Genie-teamet beskrev Genies öppna potential: "Det är svårt att förutse vilka användningsområden som kommer att bli möjliga. Vi hoppas att projekt som Genie så småningom kommer att ge människor nya verktyg för att uttrycka sin kreativitet." 

DeepMind var medvetna om riskerna med att släppa den här grundmodellen och skrev i rapporten: "Vi har valt att inte släppa kontrollpunkterna för den tränade modellen, modellens träningsdataset eller exempel från dessa data för att följa med den här rapporten eller webbplatsen."

"Vi skulle vilja ha möjlighet att ytterligare engagera oss i forskningsvärlden (och videospelvärlden) och se till att alla framtida sådana utgivningar är respektfulla, säkra och ansvarsfulla."

Använda spel för att simulera verkliga tillämpningar

DeepMind har använt videospel för flera maskininlärningsprojekt. 

Till exempel under 2021, DeepMind byggde XLand, en virtuell lekplats för att testa metoder för förstärkningsinlärning (RL) för generalistiska AI-agenter. Här behärskade AI-modeller samarbete och problemlösning genom att utföra uppgifter som att flytta hinder i öppna spelmiljöer. 

Och så förra månaden.., SIMA (Scalable, Instructable, Multiworld Agent) utformades för att förstå och utföra instruktioner på mänskligt språk i olika spel och scenarier. 

SIMA tränades med hjälp av nio videospel som krävde olika färdigheter, från grundläggande navigering till att styra fordon. 

Spelmiljöer erbjuder en kontrollerbar och skalbar sandlåda för träning och testning av AI-modeller.

DeepMinds spelexpertis sträcker sig till 2014-2015, då de utvecklade en algoritm för att besegra människor i spel som Pong och Space Invaders, för att inte tala om AlphaGo, som besegrade proffsspelaren Fan Hui på ett fullstort 19×19-bräde.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar