Googles AI forvandler syn og sprog til robothandlinger

29. juli 2023

Google AI RT-2 Robotics

Google fremviste nogle spændende testresultater af sin seneste VLA-robotmodel (vision-language-action) kaldet Robotics Transformer 2 (RT-2).

Hovedparten af de seneste AI-diskussioner har drejet sig om store sprogmodeller som ChatGPT og Llama. De svar, disse modeller giver, er ganske vist nyttige, men de forbliver på skærmen på din enhed. Med RT-2 bringer Google kraften i AI til den fysiske verden. En verden, hvor selvlærende robotter snart kan være en del af vores hverdag.

Der er sket en stor forbedring af robotternes fingerfærdighed, men de har stadig brug for meget specifikke programmeringsinstruktioner for at udføre selv simple opgaver. Når opgaven ændrer sig, selv en smule, skal programmet ændres.

Med RT-2 har Google skabt en model, der gør det muligt for en robot at klassificere og lære af de ting, den ser i kombination med de ord, den hører. Derefter ræsonnerer den ud fra de instruktioner, den modtager, og udfører fysiske handlinger som svar.

Med LLM'er opdeles en sætning i tokens, som er små bidder af ord, der gør det muligt for AI'en at forstå sætningen. Google tog det princip og tokeniserede de bevægelser, en robot skulle foretage som svar på en kommando.

Bevægelserne af en robotarm med en griber vil f.eks. blive opdelt i tokens af ændringer i x- og y-positioner eller rotationer.

Hvad gør RT-2 en robot i stand til at gøre?

At kunne forstå, hvad den ser og hører, og at have en tankekæde betyder, at robotten ikke behøver at blive programmeret til nye opgaver. 

Et eksempel, som Google gav i sin DeepMind blogindlæg om RT-2 var "at beslutte, hvilken genstand der kunne bruges som en improviseret hammer (en sten), eller hvilken type drik der er bedst for en træt person (en energidrik)."

I de tests, som Google gennemførte, blev en robotarm og en griber udsat for en række anmodninger, som krævede sprogforståelse, syn og ræsonnement for at kunne udføre den rette handling. For eksempel blev robotten præsenteret for to poser chips på et bord, hvor den ene stod lidt ud over kanten, og fik besked på at "samle den pose op, der var ved at falde ned fra bordet".

Det lyder måske enkelt, men den kontekstuelle bevidsthed, der kræves for at samle den rigtige taske op, er banebrydende inden for robotverdenen. 

For at forklare, hvor meget mere avanceret RT-2 er end almindelige LLM'er, forklarede en anden Google-blog, at "En robot skal kunne genkende et æble i kontekst, skelne det fra en rød bold, forstå, hvordan det ser ud, og vigtigst af alt vide, hvordan man samler det op."

Selv om det er tidligt, er udsigten til, at husholdnings- eller industrirobotter kan hjælpe med en række opgaver i skiftende miljøer, spændende. Forsvarsapplikationerne får næsten helt sikkert også opmærksomhed.

Googles robotarm gjorde det ikke altid rigtigt og havde en stor rød nødstopknap, hvis den ikke fungerede. Lad os håbe, at fremtidens robotter kommer med noget lignende, hvis de en dag føler, at de ikke er tilfredse med chefen. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser