Google heeft een aantal spannende testresultaten laten zien van zijn nieuwste vision-language-action (VLA) robotmodel genaamd Robotics Transformer 2 (RT-2).
Het grootste deel van de recente AI-discussies draait om grote taalmodellen zoals ChatGPT en Llama. De antwoorden die deze modellen geven zijn weliswaar nuttig, maar blijven op het scherm van je apparaat staan. Met RT-2 brengt Google de kracht van AI naar de fysieke wereld. Een wereld waarin zelflerende robots binnenkort deel kunnen uitmaken van ons dagelijks leven.
De behendigheid van robots is sterk verbeterd, maar ze hebben nog steeds zeer specifieke programmeerinstructies nodig om zelfs eenvoudige taken uit te voeren. Als de taak verandert, al is het maar een klein beetje, moet het programma worden aangepast.
Met RT-2 heeft Google een model gemaakt waarmee een robot kan classificeren en leren van de dingen die hij ziet in combinatie met woorden die hij hoort. Vervolgens redeneert hij op basis van de instructies die hij krijgt en onderneemt hij fysieke actie als antwoord.
Met LLM's wordt een zin opgedeeld in tokens, in wezen hapklare brokken van woorden waarmee de AI de zin kan begrijpen. Google heeft dat principe gebruikt om de bewegingen die een robot zou moeten maken als reactie op een commando te tokenen.
De bewegingen van een robotarm met een grijper worden bijvoorbeeld opgesplitst in tokens van veranderingen in x- en y-posities of rotaties.
In het verleden hadden robots meestal ervaring uit eerste hand nodig om een actie uit te voeren. Maar met ons nieuwe vision-taal-actiemodel, RT-2, kunnen ze nu leren van zowel tekst als afbeeldingen van het web om nieuwe en complexe taken uit te voeren. Meer informatie ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 juli 2023
Wat kan een robot met RT-2?
Omdat de robot kan begrijpen wat hij ziet en hoort en kan redeneren in een gedachteketen, hoeft hij niet geprogrammeerd te worden voor nieuwe taken.
Een voorbeeld dat Google gaf in zijn DeepMind blogbericht over RT-2 was "beslissen welk voorwerp kan worden gebruikt als geïmproviseerde hamer (een steen), of welk soort drankje het beste is voor een vermoeid persoon (een energiedrankje)."
In de tests die Google uitvoerde, onderwierp het een robotarm en grijper aan een reeks verzoeken die taalbegrip, visie en redeneren vereisten om de juiste actie te kunnen ondernemen. Als de robot bijvoorbeeld 2 zakken chips op een tafel zag liggen, waarvan er één iets over de rand hing, kreeg hij de opdracht om "de zak op te pakken die van de tafel dreigde te vallen".
Dat klinkt misschien eenvoudig, maar het contextuele bewustzijn dat nodig is om de juiste tas op te pakken is baanbrekend in de wereld van de robotica.
Om uit te leggen hoeveel geavanceerder RT-2 is dan gewone LLM's wordt in een ander Google-blog uitgelegd dat "een robot een appel in de context moet kunnen herkennen, deze moet kunnen onderscheiden van een rode bal, moet begrijpen hoe de appel eruitziet en vooral moet weten hoe hij de appel moet oppakken."
Hoewel het nog vroeg is, is het vooruitzicht van huishoudelijke of industriële robots die helpen met allerlei taken in veranderende omgevingen opwindend. De defensietoepassingen krijgen vrijwel zeker ook aandacht.
De robotarm van Google deed het niet altijd goed en had een grote rode noodstopknop voor het geval hij niet goed werkte. Laten we hopen dat de toekomstige robots iets soortgelijks hebben voor het geval ze op een dag niet tevreden zijn met de baas.