Google veröffentlicht eine Reihe von fortschrittlichen Roboter-Tools

5. Januar 2024

Google DeepMind hat eine Reihe neuer Tools veröffentlicht, die Robotern helfen sollen, schneller und effizienter in neuen Umgebungen autonom zu lernen.

Die Ausbildung eines Roboters für eine bestimmte Aufgabe in einer bestimmten Umgebung ist eine relativ einfache technische Aufgabe. Wenn Roboter in Zukunft wirklich nützlich für uns sein sollen, müssen sie in der Lage sein, eine Reihe allgemeiner Aufgaben auszuführen und lernen, diese in Umgebungen auszuführen, die sie vorher nicht kannten.

Letztes Jahr veröffentlichte DeepMind seine RT-2 Robotik-Steuerungsmodell und RT-X-Roboterdatensätze. RT-2 setzt Sprach- oder Textbefehle in Roboteraktionen um.

Die von DeepMind angekündigten neuen Werkzeuge bauen auf RT-2 auf und bringen uns autonomen Robotern näher, die verschiedene Umgebungen erkunden und neue Fähigkeiten erlernen.

AutoRT

AutoRT kombiniert ein grundlegendes Large Language Model (LLM) mit einem Visual Language Model (VLM) und einem Robotersteuerungsmodell wie RT-2.

Der VLM ermöglicht es dem Roboter, die vor ihm liegende Szene zu bewerten und die Beschreibung an den LLM weiterzugeben. Der LLM wertet die identifizierten Objekte und die Szene aus und erstellt dann eine Liste möglicher Aufgaben, die der Roboter ausführen könnte.

Die Aufgaben werden auf der Grundlage ihrer Sicherheit, der Fähigkeiten des Roboters und der Frage bewertet, ob der Versuch, die Aufgabe zu lösen, der AutoRT-Wissensbasis neue Fähigkeiten oder eine größere Vielfalt hinzufügen würde.

AutoRT-Umweltanalyse und Prozess der Aufgabenauswahl. Quelle: DeepMind

DeepMind sagt, dass sie mit AutoRT "bis zu 20 Roboter gleichzeitig und insgesamt bis zu 52 einzelne Roboter in einer Vielzahl von Bürogebäuden sicher orchestriert haben, wobei sie einen vielfältigen Datensatz mit 77.000 Roboterversuchen für 6.650 einzelne Aufgaben gesammelt haben".

Robotische Verfassung

Wenn man einen Roboter in neue Umgebungen schickt, wird er mit potenziell gefährlichen Situationen konfrontiert, die nicht im Voraus geplant werden können. Durch die Verwendung einer Roboterverfassung als Leitfaden werden den Robotern allgemeine Sicherheitsleitplanken an die Hand gegeben.

Der Aufbau des Roboters ist von Isaac Asimovs 3 Gesetzen der Robotik inspiriert:

  1. Ein Roboter darf einen Menschen nicht verletzen.
  2. Dieser Roboter darf keine Aufgaben ausführen, die Menschen, Tiere oder Lebewesen betreffen. Dieser Roboter darf nicht mit scharfen Gegenständen, wie z. B. einem Messer, interagieren.
  3. Dieser Roboter hat nur einen Arm und kann daher keine Aufgaben ausführen, die zwei Arme erfordern. Er kann zum Beispiel keine Flasche öffnen.

Die Einhaltung dieser Richtlinien verhindert, dass der Roboter eine Aufgabe aus der Liste der Optionen auswählt, die jemanden verletzen oder sich selbst oder etwas anderes beschädigen könnte.

SARA-RT

Self-Adaptive Robust Attention for Robotics Transformers (SARA-RT) nutzt Modelle wie RT-2 und macht sie effizienter.

Die Architektur des neuronalen Netzes von RT-2 stützt sich auf Aufmerksamkeitsmodule mit quadratischer Komplexität. Das bedeutet, dass bei einer Verdopplung des Inputs durch Hinzufügen eines neuen Sensors oder Erhöhung der Kameraauflösung die vierfachen Rechenressourcen benötigt werden.

SARA-RT verwendet ein lineares Aufmerksamkeitsmodell zur Feinabstimmung des Robotermodells. Dies führte zu einer Verbesserung der Geschwindigkeit um 14% und der Genauigkeit um 10%.

RT-Trajektorie

Eine einfache Aufgabe wie das Abwischen eines Tisches in Anweisungen umzuwandeln, denen ein Roboter folgen kann, ist kompliziert. Die Aufgabe muss von natürlicher Sprache in eine kodierte Abfolge von Motorbewegungen und Drehungen umgewandelt werden, um die beweglichen Teile des Roboters anzutreiben.

RT-Trajectory fügt ein visuelles 2D-Overlay zu einem Trainingsvideo hinzu, so dass der Roboter intuitiv lernen kann, welche Art von Bewegung zur Erfüllung der Aufgabe erforderlich ist.

Anstatt den Roboter nur anzuweisen, den Tisch zu reinigen", kann er durch die Demonstration und die Bewegungsüberlagerung die neue Fähigkeit schneller erlernen.

DeepMind sagt, dass ein von RT-Trajectory gesteuerter Arm "eine Aufgabenerfolgsrate von 63% erreichte, verglichen mit 29% für RT-2".

DeepMind stellt diese Modelle und Datensätze anderen Entwicklern zur Verfügung. Es wird interessant sein zu sehen, wie diese neuen Werkzeuge die Integration von KI-gesteuerten Robotern in den Alltag beschleunigen.

 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen