Google presenterade några spännande testresultat av sin senaste robotmodell med vision-language-action (VLA), Robotics Transformer 2 (RT-2).
Huvuddelen av de senaste AI-diskussionerna har kretsat kring stora språkmodeller som ChatGPT och Llama. Svaren som dessa modeller ger, även om de är användbara, förblir på skärmen på din enhet. Med RT-2 tar Google kraften i AI till den fysiska världen. En värld där självlärande robotar snart kan vara en del av vår vardag.
Det har skett stora förbättringar när det gäller robotarnas fingerfärdighet, men de behöver fortfarande mycket specifika programmeringsinstruktioner för att utföra även enkla uppgifter. När uppgiften ändras, även om det bara är en liten förändring, måste programmet ändras.
Med RT-2 har Google skapat en modell som gör det möjligt för en robot att klassificera och lära sig av saker den ser i kombination med ord den hör. Den resonerar sedan utifrån de instruktioner den får och vidtar fysiska åtgärder som svar.
Med LLM:er delas en mening upp i tokens, i princip små bitar av ord som gör det möjligt för AI att förstå meningen. Google tog den principen och tokeniserade de rörelser som en robot skulle behöva göra som svar på ett kommando.
Rörelserna hos en robotarm med gripdon skulle t.ex. delas upp i symboler för förändringar i x- och y-positioner eller rotationer.
Tidigare har robotar oftast behövt förstahandserfarenhet för att kunna utföra en handling. Men med vår nya vision-language-action-modell, RT-2, kan de nu lära sig av både text och bilder från webben för att ta itu med nya och komplexa uppgifter. Läs mer ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 juli 2023
Vad kan en robot göra med RT-2?
Att kunna förstå vad den ser och hör och att ha en tankekedja innebär att roboten inte behöver programmeras för nya uppgifter.
Ett exempel som Google gav i sin DeepMind blogginlägg om RT-2 var "att bestämma vilket föremål som skulle kunna användas som en improviserad hammare (en sten), eller vilken typ av dryck som är bäst för en trött person (en energidryck)."
I de tester som Google genomförde fick en robotarm och ett gripdon genomgå en rad förfrågningar som krävde språkförståelse, syn och resonemang för att kunna vidta lämpliga åtgärder. När roboten till exempel ställdes inför två chipspåsar på ett bord, där den ena låg lite över kanten, uppmanades den att "plocka upp påsen som var på väg att falla av bordet".
Det låter kanske enkelt, men den kontextuella medvetenhet som krävs för att plocka upp rätt väska är banbrytande inom robotvärlden.
För att förklara hur mycket mer avancerad RT-2 är än vanliga LLM:er förklarade en annan Google-blogg att "En robot måste kunna känna igen ett äpple i sitt sammanhang, skilja det från en röd boll, förstå hur det ser ut och, viktigast av allt, veta hur man plockar upp det."
Även om det bara är början är det spännande att se hur hushålls- eller industrirobotar kan hjälpa till med en mängd olika uppgifter i föränderliga miljöer. Försvarsapplikationerna kommer nästan säkert också att uppmärksammas.
Googles robotarm gjorde inte alltid rätt och hade en stor röd nödavstängningsknapp om den inte fungerade som den skulle. Låt oss hoppas att framtidens robotar kommer med något liknande ifall de känner att de inte är nöjda med chefen en dag.