DeepMind utvikler en grunnmodell for å bygge 2D-spillmiljøer

2. april 2024

  • DeepMind trente opp en grunnmodell for å generere 2D-spillnivåer fra tekst- eller bildemeldinger
  • Denne modellen, som har fått navnet Genie, effektiviserer opprettelsen av funksjonelle 2D-miljøer
  • Dette gir også potensial for å bygge roboter som forstår nye miljøer på en korrekt måte
AI-spill

Google DeepMinds Genie er en generativ modell som oversetter enkle bilder eller tekstmeldinger til dynamiske, interaktive verdener. 

Genie ble trent opp på et omfattende datasett med over 200 000 timer med videoopptak fra spill, inkludert spill fra 2D-plattformspill og robotinteraksjoner i den virkelige verden. 

Dette enorme datasettet gjorde det mulig for Genie å forstå og generere fysikk, dynamikk og estetikk i en rekke miljøer og objekter.

Den endelige modellen, dokumentert i en forskningsoppgaveinneholder 11 milliarder parametere for å generere interaktive virtuelle verdener fra enten bilder i flere formater eller tekstmeldinger. 

Du kan altså mate Genie med et bilde av stuen eller hagen din og gjøre det om til et spillbart 2D-plattformnivå.

Eller skrible et 2D-miljø på et stykke papir og konvertere det til et spillbart spillmiljø.

DeepMind AI
Genie kan fungere som et interaktivt miljø som tar imot ulike instruksjoner, for eksempel genererte bilder eller håndtegnede skisser. Brukerne kan styre modellens utdata ved å gi latente handlinger ved hvert tidstrinn, som Genie deretter bruker til å generere neste bilde i sekvensen med 1 FPS. Kilde: DeepMind via ArXiv (åpen tilgang).

Det som skiller Genie fra andre verdensmodeller, er muligheten til å la brukerne samhandle med de genererte omgivelsene bilde for bilde.

Nedenfor kan du for eksempel se hvordan Genie tar fotografier av virkelige miljøer og gjør dem om til 2D-spillnivåer.

DeepMind AI
Genie kan lage spillnivåer fra a) andre spillnivåer, b) håndtegnede skisser og c) fotografier av virkelige miljøer. Se spillnivåene (nederste rad) som er generert fra bilder fra den virkelige verden (øverste rad). Kilde: DeepMind: DeepMind.

Slik fungerer Genie

Genie er en "grunnverdensmodell" med tre nøkkelkomponenter: en spatiotemporal videotokenizer, en autoregressiv dynamikkmodell og en enkel, skalerbar latent handlingsmodell (LAM).

Slik fungerer det:

  1. Spatiotemporale transformatorer: Sentralt i Genie står spatiotemporale (ST) transformatorer, som behandler sekvenser av videobilder. I motsetning til tradisjonelle transformatorer som håndterer tekst eller statiske bilder, er ST-transformatorer utviklet for å forstå utviklingen av visuelle data over tid, noe som gjør dem ideelle for generering av video og dynamiske miljøer.
  2. Latent handlingsmodell (LAM): Genie forstår og forutser handlinger i de genererte verdenene ved hjelp av LAM. Den utleder de potensielle handlingene som kan forekomme mellom bildene i en video, og lærer seg et sett med "latente handlinger" direkte fra de visuelle dataene. Dette gjør det mulig for Genie å kontrollere hendelsesforløpet i interaktive miljøer, til tross for at det ikke finnes eksplisitte handlingsetiketter i opplæringsdataene.
  3. Video tokenizer og dynamikkmodell: For å håndtere videodata bruker Genie en videotokenizer som komprimerer rå videobilder til et mer håndterbart format med diskrete tokens. Etter tokeniseringen forutser dynamikkmodellen neste sett med bildetokener, og genererer påfølgende bilder i det interaktive miljøet.

DeepMind-teamet forklarte om Genie: "Genie kan gjøre det mulig for et stort antall mennesker å generere sine egne spill-lignende opplevelser. Dette kan være positivt for dem som ønsker å uttrykke kreativiteten sin på en ny måte, for eksempel barn som kan designe og tre inn i sine egne fantasiverdener."

I et sideeksperiment, der Genie ble presentert for videoer av ekte robotarmer som håndterte objekter i den virkelige verden, viste den en forbløffende evne til å tyde handlingene disse armene kunne utføre. Dette viser potensielle bruksområder innen robotforskning. 

Tim Rocktäschel fra Genie-teamet beskrev Genies ubegrensede potensial: "Det er vanskelig å forutsi hvilke bruksområder som vil bli muliggjort. Vi håper at prosjekter som Genie etter hvert vil gi folk nye verktøy for å uttrykke kreativiteten sin." 

DeepMind var klar over risikoen ved å offentliggjøre denne grunnmodellen, og skrev i artikkelen: "Vi har valgt å ikke offentliggjøre sjekkpunktene for den trente modellen, modellens treningsdatasett eller eksempler fra disse dataene som følger med denne artikkelen eller nettstedet."

"Vi vil gjerne ha muligheten til å engasjere oss ytterligere i forskningsmiljøet (og videospillmiljøet) og sørge for at alle fremtidige utgivelser av denne typen er respektfulle, trygge og ansvarlige."

Bruk av spill for å simulere virkelige applikasjoner

DeepMind har brukt videospill til flere maskinlæringsprosjekter. 

For eksempel i 2021, DeepMind bygget XLandEn virtuell lekeplass for testing av metoder for forsterkningslæring (RL) for generalistiske AI-agenter. Her mestret AI-modeller samarbeid og problemløsning ved å utføre oppgaver som å flytte hindringer i åpne spillmiljøer. 

Så, bare forrige måned, SIMA (Scalable, Instructable, Multiworld Agent) ble utviklet for å forstå og utføre menneskelige språkinstruksjoner på tvers av ulike spill og scenarier. 

SIMA ble trent opp ved hjelp av ni videospill som krevde ulike ferdigheter, fra grunnleggende navigasjon til styring av kjøretøy. 

Spillmiljøer tilbyr en kontrollerbar, skalerbar sandkasse for opplæring og testing av AI-modeller.

DeepMinds ekspertise innen spilling strekker seg tilbake til 2014-2015, da de utviklet en algoritme for å slå mennesker i spill som Pong og Space Invaders, for ikke å snakke om AlphaGo, som beseiret proffspilleren Fan Hui på et 19×19 brett i full størrelse.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser