Googles AI omvandlar syn och språk till robothandlingar

29 juli 2023

Google AI RT-2 Robotics

Google presenterade några spännande testresultat av sin senaste robotmodell med vision-language-action (VLA), Robotics Transformer 2 (RT-2).

Huvuddelen av de senaste AI-diskussionerna har kretsat kring stora språkmodeller som ChatGPT och Llama. Svaren som dessa modeller ger, även om de är användbara, förblir på skärmen på din enhet. Med RT-2 tar Google kraften i AI till den fysiska världen. En värld där självlärande robotar snart kan vara en del av vår vardag.

Det har skett stora förbättringar när det gäller robotarnas fingerfärdighet, men de behöver fortfarande mycket specifika programmeringsinstruktioner för att utföra även enkla uppgifter. När uppgiften ändras, även om det bara är en liten förändring, måste programmet ändras.

Med RT-2 har Google skapat en modell som gör det möjligt för en robot att klassificera och lära sig av saker den ser i kombination med ord den hör. Den resonerar sedan utifrån de instruktioner den får och vidtar fysiska åtgärder som svar.

Med LLM:er delas en mening upp i tokens, i princip små bitar av ord som gör det möjligt för AI att förstå meningen. Google tog den principen och tokeniserade de rörelser som en robot skulle behöva göra som svar på ett kommando.

Rörelserna hos en robotarm med gripdon skulle t.ex. delas upp i symboler för förändringar i x- och y-positioner eller rotationer.

Vad kan en robot göra med RT-2?

Att kunna förstå vad den ser och hör och att ha en tankekedja innebär att roboten inte behöver programmeras för nya uppgifter. 

Ett exempel som Google gav i sin DeepMind blogginlägg om RT-2 var "att bestämma vilket föremål som skulle kunna användas som en improviserad hammare (en sten), eller vilken typ av dryck som är bäst för en trött person (en energidryck)."

I de tester som Google genomförde fick en robotarm och ett gripdon genomgå en rad förfrågningar som krävde språkförståelse, syn och resonemang för att kunna vidta lämpliga åtgärder. När roboten till exempel ställdes inför två chipspåsar på ett bord, där den ena låg lite över kanten, uppmanades den att "plocka upp påsen som var på väg att falla av bordet".

Det låter kanske enkelt, men den kontextuella medvetenhet som krävs för att plocka upp rätt väska är banbrytande inom robotvärlden. 

För att förklara hur mycket mer avancerad RT-2 är än vanliga LLM:er förklarade en annan Google-blogg att "En robot måste kunna känna igen ett äpple i sitt sammanhang, skilja det från en röd boll, förstå hur det ser ut och, viktigast av allt, veta hur man plockar upp det."

Även om det bara är början är det spännande att se hur hushålls- eller industrirobotar kan hjälpa till med en mängd olika uppgifter i föränderliga miljöer. Försvarsapplikationerna kommer nästan säkert också att uppmärksammas.

Googles robotarm gjorde inte alltid rätt och hade en stor röd nödavstängningsknapp om den inte fungerade som den skulle. Låt oss hoppas att framtidens robotar kommer med något liknande ifall de känner att de inte är nöjda med chefen en dag. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar