DeepMind entwickelt ein Grundmodell für die Erstellung von 2D-Spielumgebungen

2. April 2024

  • DeepMind trainierte ein Basismodell für die Generierung von 2D-Spielebenen aus Text- oder Bildvorgaben
  • Dieses Modell mit dem Namen Genie vereinfacht die Erstellung von funktionalen 2D-Umgebungen.
  • Daraus ergibt sich auch ein Potenzial für den Bau von Robotern, die neue Umgebungen richtig verstehen
AI-Spiel

Das Genie von Google DeepMind ist ein generatives Modell, das einfache Bilder oder Texteingaben in dynamische, interaktive Welten übersetzt. 

Genie wurde mit einem umfangreichen Datensatz von über 200.000 Stunden Videomaterial aus Spielen trainiert, darunter Gameplay aus 2D-Plattformern und realen Roboterinteraktionen. 

Dieser umfangreiche Datensatz ermöglichte es Genie, die Physik, Dynamik und Ästhetik zahlreicher Umgebungen und Objekte zu verstehen und zu erzeugen.

Das endgültige Modell, dokumentiert in einer Forschungsarbeitenthält 11 Milliarden Parameter, um interaktive virtuelle Welten entweder aus Bildern in verschiedenen Formaten oder aus Textvorgaben zu erzeugen. 

So können Sie Genie mit einem Bild Ihres Wohnzimmers oder Gartens füttern und es in einen spielbaren 2D-Plattform-Level verwandeln.

Oder kritzeln Sie eine 2D-Umgebung auf ein Blatt Papier und wandeln Sie sie in eine spielbare Spielumgebung um.

DeepMind AI
Genie kann als interaktive Umgebung fungieren und verschiedene Eingabeaufforderungen akzeptieren, z. B. generierte Bilder oder handgezeichnete Skizzen. Der Benutzer kann die Ausgabe des Modells steuern, indem er bei jedem Zeitschritt latente Aktionen vorgibt, die Genie dann verwendet, um das nächste Bild in der Sequenz mit 1 FPS zu erzeugen. Quelle: DeepMind über ArXiv (freier Zugang).

Was Genie von anderen Weltmodellen unterscheidet, ist die Möglichkeit, mit den generierten Umgebungen Frame für Frame zu interagieren.

Unten sehen Sie zum Beispiel, wie Genie Fotos von realen Umgebungen aufnimmt und sie in 2D-Spielebenen verwandelt.

DeepMind AI
Genie kann Spielebenen aus a) anderen Spielebenen, b) handgezeichneten Skizzen und c) Fotos von realen Umgebungen erstellen. Sehen Sie sich die Spielebenen (untere Reihe) an, die aus realen Bildern (obere Reihe) erstellt wurden. Quelle: DeepMind.

Wie Genie funktioniert

Genie ist ein "Basisweltmodell" mit drei Schlüsselkomponenten: einem raum-zeitlichen Video-Tokenizer, einem autoregressiven Dynamikmodell und einem einfachen, skalierbaren latenten Aktionsmodell (LAM).

Und so funktioniert es:

  1. Räumlich-zeitliche Transformatoren: Das Herzstück von Genie sind spatiotemporale (ST) Transformatoren, die Sequenzen von Videobildern verarbeiten. Im Gegensatz zu herkömmlichen Transformatoren, die Text oder statische Bilder verarbeiten, sind ST-Transformatoren darauf ausgelegt, den zeitlichen Verlauf visueller Daten zu verstehen, was sie ideal für die Erzeugung von Videos und dynamischen Umgebungen macht.
  2. Latentes Handlungsmodell (LAM): Genie versteht und prognostiziert Aktionen innerhalb der von ihm generierten Welten durch den LAM. Daraus werden die potenziellen Aktionen abgeleitet, die zwischen den Einzelbildern eines Videos auftreten könnten, wobei eine Reihe von "latenten Aktionen" direkt aus den visuellen Daten gelernt wird. Dadurch ist Genie in der Lage, den Ablauf von Ereignissen in interaktiven Umgebungen zu steuern, auch wenn in den Trainingsdaten keine expliziten Aktionsbezeichnungen vorhanden sind.
  3. Video-Tokenizer und Dynamikmodell: Zur Verwaltung der Videodaten setzt Genie einen Video-Tokenizer ein, der Videorohbilder in ein handlicheres Format diskreter Token komprimiert. Nach der Tokenisierung prognostiziert das Dynamikmodell den nächsten Satz von Frame-Tokens und generiert die nachfolgenden Frames in der interaktiven Umgebung.

Das DeepMind-Team erklärte zu Genie: "Genie könnte es einer großen Anzahl von Menschen ermöglichen, ihre eigenen spielähnlichen Erfahrungen zu machen. Dies könnte sich positiv auf diejenigen auswirken, die ihre Kreativität auf neue Weise zum Ausdruck bringen wollen, z. B. Kinder, die ihre eigenen Fantasiewelten entwerfen und betreten können.

In einem Nebenexperiment zeigte Genie bei der Vorführung von Videos echter Roboterarme, die mit realen Objekten interagieren, eine unheimliche Fähigkeit, die Aktionen zu entschlüsseln, die diese Arme ausführen könnten. Dies zeigt, dass es in der Robotikforschung eingesetzt werden kann. 

Tim Rocktäschel vom Genie-Team beschrieb das unbegrenzte Potenzial von Genie: "Es ist schwer vorherzusagen, welche Anwendungsfälle möglich sein werden. Wir hoffen, dass Projekte wie Genie den Menschen neue Werkzeuge an die Hand geben, mit denen sie ihre Kreativität zum Ausdruck bringen können". 

DeepMind war sich der Risiken bewusst, die mit der Veröffentlichung dieses Basismodells verbunden sind, und erklärte in dem Papier: "Wir haben uns entschieden, die Kontrollpunkte des trainierten Modells, den Trainingsdatensatz des Modells oder Beispiele aus diesen Daten nicht zu veröffentlichen, um dieses Papier oder die Website zu begleiten."

"Wir würden uns freuen, wenn wir die Möglichkeit hätten, uns weiter mit der Forschungsgemeinschaft (und der Videospielgemeinschaft) zu engagieren und sicherzustellen, dass alle zukünftigen Veröffentlichungen dieser Art respektvoll, sicher und verantwortungsvoll sind.

Spiele nutzen, um reale Anwendungen zu simulieren

DeepMind hat Videospiele für mehrere Projekte zum maschinellen Lernen verwendet. 

Zum Beispiel im Jahr 2021, DeepMind baute XLandeine virtuelle Spielwiese zur Erprobung von Ansätzen des verstärkenden Lernens (Reinforcement Learning, RL) für generalistische KI-Agenten. Hier meisterten die KI-Modelle Kooperation und Problemlösung, indem sie Aufgaben wie das Verschieben von Hindernissen in offenen Spielumgebungen ausführten. 

Dann, erst letzten Monat, SIMA (Scalable, Instructable, Multiworld Agent) wurde entwickelt, um menschliche Sprachanweisungen in verschiedenen Spielen und Szenarien zu verstehen und auszuführen. 

SIMA wurde anhand von neun Videospielen trainiert, die unterschiedliche Fähigkeiten erfordern, von der grundlegenden Navigation bis zum Steuern von Fahrzeugen. 

Spielumgebungen bieten einen kontrollierbaren, skalierbaren Sandkasten für das Training und Testen von KI-Modellen.

DeepMinds Gaming-Expertise reicht bis in die Jahre 2014-2015 zurück, als das Unternehmen einen Algorithmus entwickelte, der Menschen in Spielen wie Pong und Space Invaders besiegte, ganz zu schweigen von AlphaGo, das den Profispieler Fan Hui auf einem 19×19 großen Brett besiegte.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen