Google viste frem noen spennende testresultater av sin nyeste robotmodell, kalt Robotics Transformer 2 (RT-2).
I den senere tid har AI-diskusjonene hovedsakelig dreid seg om store språkmodeller som ChatGPT og Llama. Svarene disse modellene gir, selv om de er nyttige, forblir på skjermen på enheten din. Med RT-2 bringer Google kraften i AI til den fysiske verden. En verden der selvlærende roboter snart kan bli en del av hverdagen vår.
Robotene har blitt mye flinkere, men de trenger fortsatt svært spesifikke programmeringsinstruksjoner for å utføre selv enkle oppgaver. Når oppgaven endres, selv om det bare er en liten endring, må programmet endres.
Med RT-2 har Google utviklet en modell som gjør det mulig for en robot å klassifisere og lære av ting den ser i kombinasjon med ord den hører. Deretter resonnerer den ut fra instruksjonene den får, og utfører fysiske handlinger som svar.
Med LLM-er deles en setning opp i tokens, som er små biter av ord som gjør det mulig for den kunstige intelligensen å forstå setningen. Google tok dette prinsippet og tokeniserte bevegelsene en robot måtte gjøre som svar på en kommando.
Bevegelsene til en robotarm med griper, for eksempel, vil bli delt opp i tokens av endringer i x- og y-posisjoner eller rotasjoner.
Tidligere har roboter vanligvis trengt førstehåndserfaring for å kunne utføre en handling. Men med vår nye syn-språk-handlingsmodell, RT-2, kan de nå lære av både tekst og bilder fra nettet for å takle nye og komplekse oppgaver. Les mer ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28. juli 2023
Hva gjør RT-2 roboten i stand til å gjøre?
Det at roboten kan forstå hva den ser og hører, og at den har en tankekjede, gjør at den ikke trenger å programmeres for nye oppgaver.
Et eksempel som Google ga i sin DeepMind blogginnlegg på RT-2 var "å avgjøre hvilken gjenstand som kunne brukes som en improvisert hammer (en stein), eller hvilken type drikke som er best for en trøtt person (en energidrikk)."
I testene som Google utførte, ble en robotarm og en griper satt til å utføre en rekke oppgaver som krevde språkforståelse, syn og logisk tenkning for å kunne utføre den riktige handlingen. For eksempel fikk roboten beskjed om å "plukke opp posen som var i ferd med å falle av bordet" når den ble presentert for to poser med chips på et bord, hvorav den ene var litt over kanten.
Det høres kanskje enkelt ut, men den kontekstuelle bevisstheten som kreves for å plukke opp riktig veske, er banebrytende i robotikkens verden.
For å forklare hvor mye mer avansert RT-2 er enn vanlige LLM-er, forklarte en annen Google-blogg at "En robot må kunne gjenkjenne et eple i kontekst, skille det fra en rød ball, forstå hvordan det ser ut, og viktigst av alt, vite hvordan den skal plukke det opp."
Selv om det er tidlig i utviklingen, er det spennende å se for seg at husholdningsroboter og industriroboter kan hjelpe til med en rekke ulike oppgaver i skiftende omgivelser. Forsvarsapplikasjonene får nesten helt sikkert også oppmerksomhet.
Googles robotarm gjorde ikke alltid alt riktig, og hadde en stor, rød nødstoppknapp i tilfelle den ikke fungerte som den skulle. La oss håpe at fremtidens roboter har noe lignende i tilfelle de en dag føler at de ikke er fornøyde med sjefen.