DeepMind von Google arbeitete mit 33 verschiedenen akademischen Labors zusammen, um einen KI-Trainingsdatensatz zu erstellen, der auf 22 verschiedenen Robotertypen basiert.
Roboter sind wirklich gut darin, eine bestimmte Aufgabe zu erfüllen. Wenn er etwas auch nur annähernd anderes tun soll, muss der Roboter von Grund auf trainiert werden. Das ultimative Ziel für die Robotik ist ein Roboter, der eine Reihe von Handlungen gut ausführen kann und in der Lage ist, selbständig neue Fähigkeiten zu erlernen.
Um ein KI-Modell zu trainieren, benötigen Sie einen großen Datensatz mit Daten, die dem Zweck des Modells entsprechen. Sprachmodelle wie GPT-4 werden anhand großer Mengen schriftlicher Daten trainiert. Bildgeneratoren wie DALL-E 3 werden auf großen Mengen von Bildern trainiert.
Mit X-Embodiment hat DeepMind einen Datensatz von Roboteraktionen auf der Grundlage von 22 verschiedenen Robotertypen erstellt. Anhand dieses Datensatzes wurden dann neue Modelle trainiert, die auf den Robotermodellen RT-1 und RT-2 basieren.
Die Daten für X-Embodiment wurden von "22 Roboterausführungen abgeleitet, die mehr als 500 Fähigkeiten und 150.000 Aufgaben in mehr als 1 Million Episoden demonstrieren", so DeepMinds Beitrag.
Wir stellen 𝗥𝗧-𝗫 vor: ein generalistisches KI-Modell, das Robotern beim Erlernen neuer Fähigkeiten helfen soll. 🤖
Um ihn zu trainieren, haben wir uns mit 33 akademischen Labors in aller Welt zusammengetan, um einen neuen Datensatz mit den Erfahrungen von 22 verschiedenen Robotertypen zu erstellen.
Erfahren Sie mehr: https://t.co/k6tE62gQGP pic.twitter.com/IXTy2g4Lty
- Google DeepMind (@GoogleDeepMind) 3. Oktober 2023
Die früheren Testergebnisse des RT-1 und des RT-2 Modelle waren bereits beeindruckend, aber DeepMind stellte fest, dass die RT-X-Versionen aufgrund der allgemeinen Natur des neuen Datensatzes deutlich besser abschnitten.
Bei den Tests wurde ein Roboter, der von einem für eine bestimmte Aufgabe trainierten Modell gesteuert wurde, mit demselben Roboter verglichen, der von dem Modell RT-1-X gesteuert wurde. RT-1-X schnitt im Durchschnitt 50% besser ab als die Modelle, die speziell für Aufgaben wie das Öffnen einer Tür oder das Verlegen eines Kabels entwickelt wurden.
RT-2, das VLA-Robotermodell (Vision-Language-Action) von Google, ermöglicht es Robotern, aus Web-, verbalen und visuellen Daten zu lernen und dann ohne Training zu handeln. Als die Ingenieure RT-2-X mit dem X-Embodiment-Datensatz trainierten, stellten sie fest, dass RT-2-X dreimal so erfolgreich war wie RT-2, was aufkommende Fähigkeiten angeht.
Mit anderen Worten: Der Roboter lernte neue Fähigkeiten, die er vorher nicht hatte, und zwar auf der Grundlage von Fähigkeiten, die andere Roboter zum Datensatz beigesteuert hatten. Die Übertragung von Fähigkeiten zwischen verschiedenen Robotertypen könnte die schnelle Entwicklung der Robotik entscheidend vorantreiben.
Diese Ergebnisse stimmen optimistisch, dass wir bald Roboter sehen werden, die über allgemeinere Fähigkeiten verfügen und in der Lage sind, neue Fähigkeiten zu erlernen, ohne speziell dafür ausgebildet zu werden.
DeepMind sagt, dass diese Forschung auf die Eigenschaft der Selbstverbesserung von RoboCatsein selbstverbessernder KI-Agent für die Robotik.
Die Aussicht auf einen Roboter, der sich ständig verbessert und neue Fähigkeiten erlernt, wäre ein großer Vorteil in Bereichen wie der Fertigung, der Landwirtschaft oder dem Gesundheitswesen. Diese neuen Fähigkeiten könnten auch in den folgenden Bereichen eingesetzt werden Verteidigungsindustrie was vielleicht eine weniger verlockende, wenn auch unvermeidliche Aussicht ist.