Stel je een AI voor die niet alleen commando's begrijpt, maar ze ook toepast, zoals een mens dat zou doen, in een reeks gesimuleerde 3D-omgevingen.
Dat is het doel van DeepMind's (Scalable, Instructable, Multiworld Agent (SIMA).
In tegenstelling tot traditionele AI, die uitblinkt in discrete taken zoals strategische spellen of het oplossen van specifieke problemen, worden SIMA's agents getraind om instructies in menselijke taal te interpreteren en deze te vertalen naar acties met behulp van een toetsenbord en muis, waardoor menselijke interactie met een computer wordt nagebootst.
Dit betekent dat of de taak nu is om door een digitaal landschap te navigeren, puzzels op te lossen of interactie aan te gaan met objecten in een game, SIMA is erop gericht om deze opdrachten te begrijpen en uit te voeren met dezelfde intuïtie en aanpassingsvermogen als een mens dat zou doen.
Maak kennis met SIMA: de eerste generalistische AI-agent die instructies in natuurlijke taal opvolgt in een breed scala aan 3D virtuele omgevingen en videogames. 🕹️
Het kan taken uitvoeren die vergelijkbaar zijn met die van een mens en presteert beter dan een agent die slechts in één instelling is getraind. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 maart 2024
De kern van dit project is een enorme en diverse dataset van menselijke gameplay in onderzoeksomgevingen en commerciële videogames.
SIMA is getraind en getest op een selectie van negen videogames door samen te werken met acht gamestudio's, waaronder bekende titels als No Man's Sky en Teardown. Elk spel daagt SIMA uit met verschillende vaardigheden, van basisnavigatie en het verzamelen van grondstoffen tot complexere activiteiten zoals knutselen en het besturen van een ruimteschip.
De training van SIMA omvatte vier onderzoeksomgevingen om de fysieke interactie en objectmanipulatievaardigheden te beoordelen.
Qua architectuur maakt SIMA gebruik van voorgetrainde vision- en videovoorspellingsmodellen, afgestemd op de specifieke 3D-instellingen van het spelportfolio.
In tegenstelling tot traditionele AI's die spellen spelen, heeft SIMA geen toegang tot broncode of aangepaste API's nodig. Het werkt met afbeeldingen op het scherm en instructies van de gebruiker en gebruikt toetsenbord- en muisacties om taken uit te voeren.
In de evaluatiefase toonde SIMA vaardigheid in 600 basisvaardigheden, waaronder navigatie, objectinteractie en menugebruik.
Wat SIMA onderscheidt is zijn algemeenheid. Deze AI wordt niet getraind om een enkel spel te beheersen of een bepaalde reeks problemen op te lossen.
In plaats daarvan leert DeepMind het om zich aan te passen, instructies te begrijpen en ernaar te handelen in verschillende virtuele werelden.
Tim Harley van DeepMind legde uit: "Het is nog steeds een onderzoeksproject", maar in de toekomst "zou je je kunnen voorstellen dat agenten zoals SIMA op een dag naast je spelen in games met jou en je vrienden".
SIMA heeft alleen de beelden nodig die worden geleverd door de 3D-omgeving en instructies in natuurlijke taal van de gebruiker. 🖱️
Met muis- en toetsenborduitvoer worden 600 vaardigheden geëvalueerd, waaronder navigatie en objectinteractie, zoals "linksaf slaan" of "boom omhakken".... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 maart 2024
SIMA beheerst de kunst om onze instructies te begrijpen en ernaar te handelen door taal te verankeren in perceptie en actie.
DeepMind heeft een rijk gaming-erfgoed dat teruggaat tot AlphaGo in 2014die vervolgens verschillende bekende spelers van het beroemde complexe Aziatische spel Go versloeg.
Echter, SIMA gaat verder dan videogames en komt dichter bij de droom van echt intelligente, instructieve AI-agenten die de grenzen tussen menselijk en machinaal begrip doen vervagen.