Stellen Sie sich eine KI vor, die Befehle nicht nur versteht, sondern sie auch wie ein Mensch in einer Reihe von simulierten 3D-Umgebungen anwendet.
Das ist das Ziel von DeepMinds (Scalable, Instructable, Multiworld Agent (SIMA).
Im Gegensatz zu herkömmlicher KI, die sich durch diskrete Aufgaben wie Strategiespiele oder spezifische Problemlösungen auszeichnet, sind die SIMA-Agenten darauf trainiert, Anweisungen in menschlicher Sprache zu interpretieren und sie mit Hilfe von Tastatur und Maus in Handlungen umzusetzen, die die menschliche Interaktion mit einem Computer nachahmen.
Ob es darum geht, durch eine digitale Landschaft zu navigieren, Rätsel zu lösen oder mit Objekten in einem Spiel zu interagieren, die SIMA soll diese Befehle mit der gleichen Intuition und Anpassungsfähigkeit verstehen und ausführen, wie es ein Mensch tun würde.
Wir stellen SIMA vor: den ersten generalistischen KI-Agenten, der Anweisungen in natürlicher Sprache in einem breiten Spektrum von virtuellen 3D-Umgebungen und Videospielen befolgt. 🕹️
Er kann ähnliche Aufgaben wie ein Mensch erledigen und übertrifft einen Agenten, der nur in einer einzigen Umgebung trainiert wurde. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13. März 2024
Das Herzstück dieses Projekts ist ein riesiger und vielfältiger Datensatz über menschliches Spielverhalten in Forschungsumgebungen und kommerziellen Videospielen.
SIMA wurde geschult und getestet an einer Auswahl von neun Videospielen in Zusammenarbeit mit acht Spielestudios, darunter bekannte Titel wie No Man's Sky und Teardown. Jedes Spiel fordert die SIMA mit unterschiedlichen Fähigkeiten heraus, von der grundlegenden Navigation und dem Sammeln von Ressourcen bis hin zu komplexeren Aktivitäten wie dem Basteln und dem Steuern von Raumschiffen.
Die Ausbildung von SIMA umfasste vier Forschungsumgebungen, um die Fähigkeiten zur physischen Interaktion und Objektmanipulation zu bewerten.
Was die Architektur betrifft, so verwendet SIMA vortrainierte Bild- und Videovorhersagemodelle, die auf die spezifischen 3D-Einstellungen des Spieleportfolios abgestimmt sind.
Im Gegensatz zu herkömmlichen Spiel-KIs benötigt SIMA keinen Zugriff auf den Quellcode oder eigene APIs. Sie arbeitet mit Bildschirmbildern und vom Benutzer eingegebenen Anweisungen und führt Aufgaben mit Hilfe von Tastatur- und Mausaktionen aus.
In der Evaluierungsphase hat SIMA die Beherrschung von 600 Grundfertigkeiten in den Bereichen Navigation, Objektinteraktion und Menüführung nachgewiesen.
Das Besondere an der SIMA ist ihre Allgemeingültigkeit. Diese KI wird nicht darauf trainiert, ein einzelnes Spiel zu meistern oder eine bestimmte Reihe von Problemen zu lösen.
Stattdessen bringt DeepMind ihm bei, anpassungsfähig zu sein, Anweisungen zu verstehen und sie in verschiedenen virtuellen Welten zu befolgen.
Tim Harley von DeepMind erklärte: "Es handelt sich noch um ein Forschungsprojekt", aber in der Zukunft "könnte man sich vorstellen, dass Agenten wie SIMA eines Tages mit dir und deinen Freunden in Spielen spielen."
SIMA benötigt nur die von der 3D-Umgebung gelieferten Bilder und natürlichsprachliche Anweisungen des Benutzers. 🖱️
Mit Maus- und Tastaturausgaben wird es über 600 Fertigkeiten bewertet, die Bereiche wie Navigation und Objektinteraktion - wie "links abbiegen" oder "Baum fällen" - umfassen... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13. März 2024
SIMA ist die Beherrschung der Kunst, unsere Anweisungen zu verstehen und danach zu handeln, indem wir die Sprache in der Wahrnehmung und im Handeln verankern.
DeepMind kann auf eine lange Tradition im Bereich der Spiele zurückblicken, die bis zu AlphaGo im Jahr 2014das mehrere hochkarätige Spieler des berühmten komplexen asiatischen Spiels Go schlug.
Allerdings, SIMA geht über Videospiele hinaus und nähert sich dem Traum von wirklich intelligenten, anleitbaren KI-Agenten die die Grenzen zwischen menschlichem und maschinellem Verständnis verwischen.