Google fremviste nogle spændende testresultater af sin seneste VLA-robotmodel (vision-language-action) kaldet Robotics Transformer 2 (RT-2).
Hovedparten af de seneste AI-diskussioner har drejet sig om store sprogmodeller som ChatGPT og Llama. De svar, disse modeller giver, er ganske vist nyttige, men de forbliver på skærmen på din enhed. Med RT-2 bringer Google kraften i AI til den fysiske verden. En verden, hvor selvlærende robotter snart kan være en del af vores hverdag.
Der er sket en stor forbedring af robotternes fingerfærdighed, men de har stadig brug for meget specifikke programmeringsinstruktioner for at udføre selv simple opgaver. Når opgaven ændrer sig, selv en smule, skal programmet ændres.
Med RT-2 har Google skabt en model, der gør det muligt for en robot at klassificere og lære af de ting, den ser i kombination med de ord, den hører. Derefter ræsonnerer den ud fra de instruktioner, den modtager, og udfører fysiske handlinger som svar.
Med LLM'er opdeles en sætning i tokens, som er små bidder af ord, der gør det muligt for AI'en at forstå sætningen. Google tog det princip og tokeniserede de bevægelser, en robot skulle foretage som svar på en kommando.
Bevægelserne af en robotarm med en griber vil f.eks. blive opdelt i tokens af ændringer i x- og y-positioner eller rotationer.
Tidligere har robotter normalt haft brug for førstehåndserfaring for at kunne udføre en handling. Men med vores nye vision-sprog-handlingsmodel, RT-2, kan de nu lære af både tekst og billeder fra nettet for at tackle nye og komplekse opgaver. Få mere at vide ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28. juli 2023
Hvad gør RT-2 en robot i stand til at gøre?
At kunne forstå, hvad den ser og hører, og at have en tankekæde betyder, at robotten ikke behøver at blive programmeret til nye opgaver.
Et eksempel, som Google gav i sin DeepMind blogindlæg om RT-2 var "at beslutte, hvilken genstand der kunne bruges som en improviseret hammer (en sten), eller hvilken type drik der er bedst for en træt person (en energidrik)."
I de tests, som Google gennemførte, blev en robotarm og en griber udsat for en række anmodninger, som krævede sprogforståelse, syn og ræsonnement for at kunne udføre den rette handling. For eksempel blev robotten præsenteret for to poser chips på et bord, hvor den ene stod lidt ud over kanten, og fik besked på at "samle den pose op, der var ved at falde ned fra bordet".
Det lyder måske enkelt, men den kontekstuelle bevidsthed, der kræves for at samle den rigtige taske op, er banebrydende inden for robotverdenen.
For at forklare, hvor meget mere avanceret RT-2 er end almindelige LLM'er, forklarede en anden Google-blog, at "En robot skal kunne genkende et æble i kontekst, skelne det fra en rød bold, forstå, hvordan det ser ud, og vigtigst af alt vide, hvordan man samler det op."
Selv om det er tidligt, er udsigten til, at husholdnings- eller industrirobotter kan hjælpe med en række opgaver i skiftende miljøer, spændende. Forsvarsapplikationerne får næsten helt sikkert også opmærksomhed.
Googles robotarm gjorde det ikke altid rigtigt og havde en stor rød nødstopknap, hvis den ikke fungerede. Lad os håbe, at fremtidens robotter kommer med noget lignende, hvis de en dag føler, at de ikke er tilfredse med chefen.