Google DeepMinds Genie är en generativ modell som översätter enkla bilder eller textmeddelanden till dynamiska, interaktiva världar.
Genie tränades på ett omfattande dataset med över 200.000 timmar videofilmer från spel, inklusive spel från 2D-plattformarspel och robotinteraktioner i verkligheten.
Med hjälp av denna stora datamängd kunde Genie förstå och generera fysik, dynamik och estetik i många olika miljöer och objekt.
Den slutgiltiga modellen, dokumenterad i en forskningsrapportinnehåller 11 miljarder parametrar för att generera interaktiva virtuella världar från antingen bilder i flera format eller textmeddelanden.
Du kan alltså mata Genie med en bild av ditt vardagsrum eller din trädgård och förvandla den till en spelbar 2D-plattformsnivå.
Eller klottra ner en 2D-miljö på ett papper och omvandla den till en spelbar spelmiljö.
Det som skiljer Genie från andra världsmodeller är möjligheten att låta användarna interagera med de genererade miljöerna på en ram-för-ram-basis.
Nedan kan du till exempel se hur Genie tar fotografier av verkliga miljöer och förvandlar dem till 2D-spelnivåer.
Hur Genie fungerar
Genie är en "grundläggande världsmodell" med tre nyckelkomponenter: en spatiotemporal videotokenizer, en autoregressiv dynamikmodell och en enkel, skalbar latent handlingsmodell (LAM).
Så här fungerar det:
- Spatiotemporala transformatorer: Centralt i Genie är spatiotemporala (ST) transformatorer, som bearbetar sekvenser av videobilder. Till skillnad från traditionella transformatorer som hanterar text eller statiska bilder är ST-transformatorer utformade för att förstå hur visuella data utvecklas över tiden, vilket gör dem idealiska för generering av video och dynamiska miljöer.
- Latent handlingsmodell (LAM): Genie förstår och förutser handlingar i sina genererade världar genom LAM. Den drar slutsatser om de potentiella åtgärder som kan inträffa mellan bildrutorna i en video och lär sig en uppsättning "latenta åtgärder" direkt från de visuella data. Detta gör det möjligt för Genie att styra händelseförloppet i interaktiva miljöer, trots att det inte finns några explicita handlingsetiketter i träningsdatan.
- Tokenizer och dynamikmodell för video: För att hantera videodata använder Genie en videotokenizer som komprimerar råa videobilder till ett mer hanterbart format av diskreta tokens. Efter tokeniseringen förutspår dynamikmodellen nästa uppsättning bildtokens, vilket genererar efterföljande bildrutor i den interaktiva miljön.
DeepMind-teamet förklarade om Genie: "Genie kan göra det möjligt för en stor mängd människor att skapa sina egna spelliknande upplevelser. Detta kan vara positivt för dem som vill uttrycka sin kreativitet på ett nytt sätt, till exempel barn som kan designa och kliva in i sina egna föreställningsvärldar."
I ett sidoexperiment, när Genie presenterades för videor av riktiga robotarmar som hanterade verkliga föremål, visade han en kuslig förmåga att tyda de åtgärder som dessa armar kunde utföra. Detta visar på potentiella användningsområden inom robotikforskning.
Tim Rocktäschel från Genie-teamet beskrev Genies öppna potential: "Det är svårt att förutse vilka användningsområden som kommer att bli möjliga. Vi hoppas att projekt som Genie så småningom kommer att ge människor nya verktyg för att uttrycka sin kreativitet."
DeepMind var medvetna om riskerna med att släppa den här grundmodellen och skrev i rapporten: "Vi har valt att inte släppa kontrollpunkterna för den tränade modellen, modellens träningsdataset eller exempel från dessa data för att följa med den här rapporten eller webbplatsen."
"Vi skulle vilja ha möjlighet att ytterligare engagera oss i forskningsvärlden (och videospelvärlden) och se till att alla framtida sådana utgivningar är respektfulla, säkra och ansvarsfulla."
Använda spel för att simulera verkliga tillämpningar
DeepMind har använt videospel för flera maskininlärningsprojekt.
Till exempel under 2021, DeepMind byggde XLand, en virtuell lekplats för att testa metoder för förstärkningsinlärning (RL) för generalistiska AI-agenter. Här behärskade AI-modeller samarbete och problemlösning genom att utföra uppgifter som att flytta hinder i öppna spelmiljöer.
Och så förra månaden.., SIMA (Scalable, Instructable, Multiworld Agent) utformades för att förstå och utföra instruktioner på mänskligt språk i olika spel och scenarier.
SIMA tränades med hjälp av nio videospel som krävde olika färdigheter, från grundläggande navigering till att styra fordon.
Spelmiljöer erbjuder en kontrollerbar och skalbar sandlåda för träning och testning av AI-modeller.
DeepMinds spelexpertis sträcker sig till 2014-2015, då de utvecklade en algoritm för att besegra människor i spel som Pong och Space Invaders, för att inte tala om AlphaGo, som besegrade proffsspelaren Fan Hui på ett fullstort 19×19-bräde.