Google's AI zet visie en taal om in robotacties

29 juli 2023

Google AI RT-2 Robotica

Google heeft een aantal spannende testresultaten laten zien van zijn nieuwste vision-language-action (VLA) robotmodel genaamd Robotics Transformer 2 (RT-2).

Het grootste deel van de recente AI-discussies draait om grote taalmodellen zoals ChatGPT en Llama. De antwoorden die deze modellen geven zijn weliswaar nuttig, maar blijven op het scherm van je apparaat staan. Met RT-2 brengt Google de kracht van AI naar de fysieke wereld. Een wereld waarin zelflerende robots binnenkort deel kunnen uitmaken van ons dagelijks leven.

De behendigheid van robots is sterk verbeterd, maar ze hebben nog steeds zeer specifieke programmeerinstructies nodig om zelfs eenvoudige taken uit te voeren. Als de taak verandert, al is het maar een klein beetje, moet het programma worden aangepast.

Met RT-2 heeft Google een model gemaakt waarmee een robot kan classificeren en leren van de dingen die hij ziet in combinatie met woorden die hij hoort. Vervolgens redeneert hij op basis van de instructies die hij krijgt en onderneemt hij fysieke actie als antwoord.

Met LLM's wordt een zin opgedeeld in tokens, in wezen hapklare brokken van woorden waarmee de AI de zin kan begrijpen. Google heeft dat principe gebruikt om de bewegingen die een robot zou moeten maken als reactie op een commando te tokenen.

De bewegingen van een robotarm met een grijper worden bijvoorbeeld opgesplitst in tokens van veranderingen in x- en y-posities of rotaties.

Wat kan een robot met RT-2?

Omdat de robot kan begrijpen wat hij ziet en hoort en kan redeneren in een gedachteketen, hoeft hij niet geprogrammeerd te worden voor nieuwe taken. 

Een voorbeeld dat Google gaf in zijn DeepMind blogbericht over RT-2 was "beslissen welk voorwerp kan worden gebruikt als geïmproviseerde hamer (een steen), of welk soort drankje het beste is voor een vermoeid persoon (een energiedrankje)."

In de tests die Google uitvoerde, onderwierp het een robotarm en grijper aan een reeks verzoeken die taalbegrip, visie en redeneren vereisten om de juiste actie te kunnen ondernemen. Als de robot bijvoorbeeld 2 zakken chips op een tafel zag liggen, waarvan er één iets over de rand hing, kreeg hij de opdracht om "de zak op te pakken die van de tafel dreigde te vallen".

Dat klinkt misschien eenvoudig, maar het contextuele bewustzijn dat nodig is om de juiste tas op te pakken is baanbrekend in de wereld van de robotica. 

Om uit te leggen hoeveel geavanceerder RT-2 is dan gewone LLM's wordt in een ander Google-blog uitgelegd dat "een robot een appel in de context moet kunnen herkennen, deze moet kunnen onderscheiden van een rode bal, moet begrijpen hoe de appel eruitziet en vooral moet weten hoe hij de appel moet oppakken."

Hoewel het nog vroeg is, is het vooruitzicht van huishoudelijke of industriële robots die helpen met allerlei taken in veranderende omgevingen opwindend. De defensietoepassingen krijgen vrijwel zeker ook aandacht.

De robotarm van Google deed het niet altijd goed en had een grote rode noodstopknop voor het geval hij niet goed werkte. Laten we hopen dat de toekomstige robots iets soortgelijks hebben voor het geval ze op een dag niet tevreden zijn met de baas. 

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden