Googles KI verwandelt Vision und Sprache in Roboteraktionen

Google hat einige aufregende Testergebnisse seines neuesten Vision-Language-Action (VLA)-Robotermodells namens Robotics Transformer 2 (RT-2) vorgestellt.

Der Großteil der jüngsten KI-Diskussionen hat sich um große Sprachmodelle wie ChatGPT und Llama gedreht. Die Antworten, die diese Modelle liefern, sind zwar nützlich, bleiben aber auf dem Bildschirm Ihres Geräts. Mit RT-2 bringt Google die Macht der KI in die physische Welt. Eine Welt, in der selbstlernende Roboter bald Teil unseres Alltags sein könnten.

Die Geschicklichkeit von Robotern hat sich stark verbessert, aber sie benötigen immer noch sehr spezifische Programmieranweisungen, um selbst einfache Aufgaben zu bewältigen. Wenn sich die Aufgabe auch nur geringfügig ändert, muss das Programm angepasst werden.

Mit RT-2 hat Google ein Modell entwickelt, das es einem Roboter ermöglicht, Dinge, die er sieht, in Kombination mit Worten, die er hört, zu klassifizieren und daraus zu lernen. Er reagiert dann auf die Anweisungen, die er erhält, und führt physische Aktionen aus.

Bei LLMs wird ein Satz in Tokens zerlegt, also in mundgerechte Wortbrocken, die es der KI ermöglichen, den Satz zu verstehen. Google hat dieses Prinzip übernommen und die Bewegungen, die ein Roboter als Reaktion auf einen Befehl ausführen muss, in Token unterteilt.

Die Bewegungen eines Roboterarms mit einem Greifer würden beispielsweise in Token für Änderungen der X- und Y-Positionen oder Drehungen unterteilt.

In der Vergangenheit mussten Roboter in der Regel Erfahrungen aus erster Hand sammeln, um eine Aktion ausführen zu können. Aber mit unserem neuen Vision-Language-Action-Modell RT-2 können sie jetzt sowohl aus Texten als auch aus Bildern aus dem Internet lernen, um neue und komplexe Aufgaben zu bewältigen. Mehr erfahren ↓ https://t.co/4DSRwUHhwg

- Google (@Google) 28. Juli 2023

Was kann ein Roboter mit RT-2 tun?

Da der Roboter in der Lage ist, zu verstehen, was er sieht und hört, und er über eine Gedankenkette verfügt, muss er nicht für neue Aufgaben programmiert werden.

Ein Beispiel, das Google in seinem DeepMind Blogbeitrag zu RT-2 war "die Entscheidung, welcher Gegenstand als improvisierter Hammer verwendet werden kann (ein Stein) oder welches Getränk am besten für einen müden Menschen geeignet ist (ein Energydrink)".

In den von Google durchgeführten Tests wurden ein Roboterarm und ein Greifer einer Reihe von Anforderungen unterzogen, die Sprachverständnis, Sehvermögen und logisches Denken erforderten, damit der Roboter die richtige Aktion ausführen konnte. Wenn zum Beispiel zwei Tüten mit Chips auf einem Tisch lagen, von denen eine leicht über den Rand hinausragte, sollte der Roboter "die Tüte aufheben, die vom Tisch zu fallen drohte".

Das mag einfach klingen, aber das kontextbezogene Bewusstsein, das erforderlich ist, um die richtige Tasche zu finden, ist in der Welt der Robotik bahnbrechend.

Um zu erklären, wie viel fortschrittlicher RT-2 im Vergleich zu normalen LLMs ist, wurde in einem anderen Google-Blog erklärt, dass "ein Roboter in der Lage sein muss, einen Apfel im Kontext zu erkennen, ihn von einem roten Ball zu unterscheiden, zu verstehen, wie er aussieht, und vor allem zu wissen, wie man ihn aufhebt."

Auch wenn die Entwicklung noch in den Kinderschuhen steckt, ist die Aussicht auf Haushalts- oder Industrieroboter, die bei einer Vielzahl von Aufgaben in sich verändernden Umgebungen helfen, spannend. Auch die Anwendungen im Verteidigungsbereich werden mit Sicherheit Aufmerksamkeit erregen.

Der Roboterarm von Google hat es nicht immer richtig gemacht und hatte einen großen roten Not-Aus-Knopf für den Fall, dass er nicht richtig funktioniert. Hoffen wir, dass die zukünftigen Roboter etwas Ähnliches haben, falls sie eines Tages das Gefühl haben, dass sie mit ihrem Chef nicht zufrieden sind.

Googles KI verwandelt Visionen und Sprache in robotische Aktionen

Was kann ein Roboter mit RT-2 tun?

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Googles KI verwandelt Visionen und Sprache in robotische Aktionen

Was kann ein Roboter mit RT-2 tun?

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

KOSTENLOSES PDF EXKLUSIVMit DailyAI immer einen Schritt voraus

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus