Föreställ dig en AI som inte bara förstår kommandon utan också tillämpar dem, precis som en människa skulle göra, i en rad olika simulerade 3D-miljöer.
Det är syftet med DeepMinds (Scalable, Instructable, Multiworld Agent (SIMA).
Till skillnad från traditionell AI, som kan utmärka sig i diskreta uppgifter som strategiska spel eller specifik problemlösning, tränas SIMAs agenter att tolka instruktioner på mänskligt språk och översätta dem till åtgärder med hjälp av ett tangentbord och en mus, vilket efterliknar mänsklig interaktion med en dator.
Det innebär att oavsett om uppgiften är att navigera genom ett digitalt landskap, lösa pussel eller interagera med objekt i ett spel, så strävar SIMA efter att förstå och utföra dessa kommandon med samma intuition och anpassningsförmåga som en människa skulle göra.
Vi presenterar SIMA: den första generalistiska AI-agenten som följer instruktioner på naturligt språk i ett brett spektrum av virtuella 3D-miljöer och videospel. 🕹️
Den kan utföra uppgifter som liknar en människas och överträffar en agent som bara tränats i en enda miljö. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 mars 2024
Projektets kärna är ett stort och varierat dataset av mänskligt spelande i forskningsmiljöer och kommersiella videospel.
SIMA utbildades och testades på ett urval av nio videospel genom samarbeten med åtta spelstudior, inklusive välkända titlar som No Man's Sky och Teardown. Varje spel utmanar SIMA med olika färdigheter, från grundläggande navigering och resursinsamling till mer komplexa aktiviteter som hantverk och rymdskeppspilotering.
SIMAs utbildning omfattade fyra forskningsmiljöer för att bedöma dess förmåga till fysisk interaktion och hantering av objekt.
När det gäller arkitektur använder SIMA förtränade modeller för syn- och videoprediktion, som finjusteras med de specifika 3D-inställningarna i spelportföljen.
Till skillnad från traditionella AI:n för spel kräver SIMA inte tillgång till källkod eller anpassade API:er. Den arbetar med bilder på skärmen och instruktioner från användaren, och använder tangentbord och mus för att utföra uppgifter.
I utvärderingsfasen visade SIMA att man behärskade 600 grundläggande färdigheter som omfattar navigering, interaktion med objekt och menyanvändning.
Det som utmärker SIMA är dess allmängiltighet. Den här AI:n tränas inte för att bemästra ett enda spel eller lösa en viss uppsättning problem.
Istället lär DeepMind den att vara anpassningsbar, att förstå instruktioner och att agera på dem i olika virtuella världar.
Tim Harley från DeepMind förklarade: "Det är fortfarande ett forskningsprojekt", men i framtiden "skulle man kunna tänka sig att agenter som SIMA en dag spelar tillsammans med dig i spel, med dig och med dina vänner".
SIMA behöver bara de bilder som tillhandahålls av 3D-miljön och instruktioner på naturligt språk som ges av användaren. 🖱️
Med mus och tangentbord utvärderas 600 färdigheter, som spänner över områden som navigering och objektinteraktion - som "sväng vänster" eller "hugga ner träd".... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 mars 2024
SIMA bemästrar konsten att förstå och agera utifrån våra instruktioner genom att förankra språket i perception och handling.
DeepMind har ett gediget spelarv som sträcker sig tillbaka till AlphaGo år 2014, som sedan slog flera högprofilerade spelare i det berömda komplexa asiatiska spelet Go.
Men.., SIMA går djupare än videospel och närmar sig drömmen om verkligt intelligenta, instruerbara AI-agenter som suddar ut gränserna mellan mänsklig och maskinell förståelse.