Googles KI verwandelt Visionen und Sprache in robotische Aktionen

Juli 29, 2023

Google AI RT-2 Robotics

Google hat einige aufregende Testergebnisse seines neuesten Vision-Language-Action (VLA)-Robotermodells namens Robotics Transformer 2 (RT-2) vorgestellt.

Der Großteil der jüngsten KI-Diskussionen hat sich um große Sprachmodelle wie ChatGPT und Llama gedreht. Die Antworten, die diese Modelle liefern, sind zwar nützlich, bleiben aber auf dem Bildschirm Ihres Geräts. Mit RT-2 bringt Google die Macht der KI in die physische Welt. Eine Welt, in der selbstlernende Roboter bald Teil unseres Alltags sein könnten.

Die Geschicklichkeit von Robotern hat sich stark verbessert, aber sie benötigen immer noch sehr spezifische Programmieranweisungen, um selbst einfache Aufgaben zu bewältigen. Wenn sich die Aufgabe auch nur geringfügig ändert, muss das Programm angepasst werden.

Mit RT-2 hat Google ein Modell entwickelt, das es einem Roboter ermöglicht, Dinge, die er sieht, in Kombination mit Worten, die er hört, zu klassifizieren und daraus zu lernen. Er reagiert dann auf die Anweisungen, die er erhält, und führt physische Aktionen aus.

Bei LLMs wird ein Satz in Tokens zerlegt, also in mundgerechte Wortbrocken, die es der KI ermöglichen, den Satz zu verstehen. Google hat dieses Prinzip übernommen und die Bewegungen, die ein Roboter als Reaktion auf einen Befehl ausführen muss, in Token unterteilt.

Die Bewegungen eines Roboterarms mit einem Greifer würden beispielsweise in Token für Änderungen der X- und Y-Positionen oder Drehungen unterteilt.

Was kann ein Roboter mit RT-2 tun?

Da der Roboter in der Lage ist, zu verstehen, was er sieht und hört, und er über eine Gedankenkette verfügt, muss er nicht für neue Aufgaben programmiert werden. 

Ein Beispiel, das Google in seinem DeepMind Blogbeitrag zu RT-2 war "die Entscheidung, welcher Gegenstand als improvisierter Hammer verwendet werden kann (ein Stein) oder welches Getränk am besten für einen müden Menschen geeignet ist (ein Energydrink)".

In den von Google durchgeführten Tests wurden ein Roboterarm und ein Greifer einer Reihe von Anforderungen unterzogen, die Sprachverständnis, Sehvermögen und logisches Denken erforderten, damit der Roboter die richtige Aktion ausführen konnte. Wenn zum Beispiel zwei Tüten mit Chips auf einem Tisch lagen, von denen eine leicht über den Rand hinausragte, sollte der Roboter "die Tüte aufheben, die vom Tisch zu fallen drohte".

Das mag einfach klingen, aber das kontextbezogene Bewusstsein, das erforderlich ist, um die richtige Tasche zu finden, ist in der Welt der Robotik bahnbrechend. 

Um zu erklären, wie viel fortschrittlicher RT-2 im Vergleich zu normalen LLMs ist, wurde in einem anderen Google-Blog erklärt, dass "ein Roboter in der Lage sein muss, einen Apfel im Kontext zu erkennen, ihn von einem roten Ball zu unterscheiden, zu verstehen, wie er aussieht, und vor allem zu wissen, wie man ihn aufhebt."

Auch wenn die Entwicklung noch in den Kinderschuhen steckt, ist die Aussicht auf Haushalts- oder Industrieroboter, die bei einer Vielzahl von Aufgaben in sich verändernden Umgebungen helfen, spannend. Auch die Anwendungen im Verteidigungsbereich werden mit Sicherheit Aufmerksamkeit erregen.

Der Roboterarm von Google hat es nicht immer richtig gemacht und hatte einen großen roten Not-Aus-Knopf für den Fall, dass er nicht richtig funktioniert. Hoffen wir, dass die zukünftigen Roboter etwas Ähnliches haben, falls sie eines Tages das Gefühl haben, dass sie mit ihrem Chef nicht zufrieden sind. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen