Forestill deg en kunstig intelligens som ikke bare forstår kommandoer, men som bruker dem på samme måte som et menneske ville gjort, i en rekke simulerte 3D-miljøer.
Det er målet med DeepMinds (Scalable, Instructable, Multiworld Agent (SIMA).
I motsetning til tradisjonell kunstig intelligens, som kan utmerke seg i diskrete oppgaver som strategiske spill eller spesifikk problemløsning, er SIMAs agenter opplært til å tolke menneskelige språkinstruksjoner og oversette dem til handlinger ved hjelp av tastatur og mus, noe som etterligner menneskelig interaksjon med en datamaskin.
Det betyr at enten oppgaven er å navigere gjennom et digitalt landskap, løse gåter eller samhandle med objekter i et spill, har SIMA som mål å forstå og utføre disse kommandoene med samme intuisjon og tilpasningsevne som en person ville gjort.
Vi presenterer SIMA: den første generalistiske AI-agenten som kan følge instruksjoner på naturlig språk i et bredt spekter av virtuelle 3D-miljøer og videospill. 🕹️
Den kan utføre oppgaver som ligner på et menneskes, og gjør det bedre enn en agent som er trent opp i bare én setting. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13. mars 2024
Kjernen i dette prosjektet er et stort og mangfoldig datasett med menneskelig spilling på tvers av forskningsmiljøer og kommersielle videospill.
SIMA ble opplært og testet på et utvalg av ni videospill gjennom samarbeid med åtte spillstudioer, inkludert velkjente titler som No Man's Sky og Teardown. Hvert spill utfordrer SIMA med ulike ferdigheter, fra grunnleggende navigering og ressursinnsamling til mer komplekse aktiviteter som håndverk og romskipstyring.
SIMAs opplæring inkluderte fire forskningsmiljøer for å vurdere ferdighetene i fysisk interaksjon og objekthåndtering.
Når det gjelder arkitektur, bruker SIMA forhåndstrenede syns- og videoprediksjonsmodeller som er finjustert til de spesifikke 3D-innstillingene i spillporteføljen.
I motsetning til tradisjonelle AI-er som spiller spill, krever SIMA ikke tilgang til kildekode eller tilpassede API-er. Den bruker bilder på skjermen og instruksjoner fra brukeren, og utfører oppgaver ved hjelp av tastatur og mus.
I evalueringsfasen demonstrerte SIMA ferdigheter på tvers av 600 grunnleggende ferdigheter som omfatter navigering, interaksjon med objekter og menybruk.
Det som skiller SIMA fra andre, er dens generalitet. Denne kunstige intelligensen trenes ikke opp til å mestre et enkelt spill eller løse et bestemt sett med problemer.
I stedet lærer DeepMind den å være tilpasningsdyktig, å forstå instruksjoner og å handle ut fra dem på tvers av ulike virtuelle verdener.
Tim Harley fra DeepMind forklarte: "Det er fortsatt et forskningsprosjekt", men i fremtiden "kan man se for seg at agenter som SIMA en dag vil spille sammen med deg og vennene dine i spill."
SIMA trenger bare bilder fra 3D-miljøet og instruksjoner på naturlig språk fra brukeren. 🖱️
Med mus- og tastaturutganger evalueres 600 ferdigheter, som spenner over områder som navigering og objektinteraksjon - for eksempel "sving til venstre" eller "hugg ned et tre"... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13. mars 2024
SIMA er å mestre kunsten å forstå og handle etter våre instruksjoner ved å forankre språket i persepsjon og handling.
DeepMind har en lang spillhistorie som strekker seg tilbake til AlphaGo i 2014som slo flere høyt profilerte spillere i det berømte og komplekse asiatiske spillet Go.
Men.., SIMA går dypere enn videospill, og nærmer seg drømmen om virkelig intelligente, instruerbare AI-agenter som utvisker grensene mellom menneskelig og maskinell forståelse.