Forskere ved Stanford University har forbedret den statiske ALOHA-roboten ved å bygge en helt mobil versjon som kan læres opp til å utføre huslige oppgaver.
For at en robot skal være nyttig i en rekke generaliserte oppgaver, må den kunne bevege seg rundt og ha et bredt spekter av presisjonsbevegelser for armene. Vi har sett noen imponerende demonstrasjoner av dette med roboter som Teslas Optimus, men de er ofte dyre eller utilgjengelige.
I fjor ledet Tony Zhao et team som utviklet ALOHA, et lavkostnads Open Source HArdware-system for styring av en bimanuell, eller toarmet, robot. De første demonstrasjonene av ALOHAs evner var imponerende, men roboten var statisk og opererte bare på gjenstander foran seg på et skrivebord.
Med Mobil ALOHAhar teamet ledet av Zhao og Zipeng Fu skapt en robot som kan navigere gjennom komplekse omgivelser som et hjem, noe som åpner for en rekke nye bruksområder.
Roboten kunne lage mat, tørke bort vinsøl fra en benk, ordne stoler eller ringe etter heis.
Noen av disse kan virke trivielle, men det er ikke lett å få en robot til å gjøre noe slikt som å ringe etter en heis. Den må navigere til heisen fra potensielt forskjellige startpunkter, finne en knapp på 2 cm x 2 cm, trykke på knappen med akkurat riktig kraft og deretter gå inn i heisen.
Imitasjonslæring
Nøkkelen til at roboten skal lære seg nye ferdigheter, er en prosess med imitasjonslæring fra menneskelige demonstrasjoner. Dette gjøres ofte ved hjelp av videoer eller datasett som Googles RT-X. Med Mobile ALOHA brukte forskerne disse datasettene, men valgte også en annen tilnærming. Roboten er utstyrt med et grensesnitt som gjør det mulig å koble en operatør til den, slik at operatøren kan styre roboten mens den utfører en oppgave.
Etter å ha demonstrert en oppgave 50 ganger, kan tether-grensesnittet fjernes, og Mobile ALOHA vil fullføre oppgaven i opptil 90% av tilfellene.
Imitasjonslæring er svært nyttig når man skal lære roboter nye ferdigheter, men det har sine egne utfordringer, spesielt i domener som krever høy presisjon. Mobile ALOHA bruker en ny algoritme kalt Action Chunk with Transformers (ACT), som Zhaos team utviklet i fjor.
ACT-algoritmen øker effektiviteten ved å forutsi handlinger i bolker, noe som reduserer oppgavekompleksiteten.
Forskerne sier at de med Mobile ALOHA var "de første til å finne ut at samlæring med statiske manipulasjonsdatasett forbedrer ytelsen og dataeffektiviteten til mobile manipulasjonspolicyer".
Dette betyr at de mange eksisterende datasettene som er laget med statiske roboter, kan være svært nyttige også for opplæring av mobile roboter.
Hva var det jeg sa for noen dager siden? 2024 er robotikkens år. Mobile-ALOHA er en åpen kildekode-robotmaskinvare som kan utføre fingerferdige, bimanuelle oppgaver som å tilberede et måltid (med menneskelig teleoperasjon). Snart vil maskinvaren ikke lenger være en flaskehals i jakten på menneskelig... pic.twitter.com/vMi3XkqKeh
- Jim Fan (@DrJimFan) 4. januar 2024
Tilgjengelig og rimelig
Demonstrasjonene er imponerende, men det er den hyllevare-maskinvaren og de lave kostnadene ved løsningen som gjør Mobile ALOHA spesielt interessant.
Roboten styres av en vanlig bærbar PC med en Nvidia 3070 Ti GPU (8 GB VRAM) og en Intel i7-12800H-prosessor. Den bærbare datamaskinen mottar videostrømmer fra tre Logitech C922x RGB-webkameraer, som alle har en oppløsning på 480×640.
Roboten drives av et batteri på 1,26 kWh som også fungerer som en 14 kg tung balansevekt for å forhindre at roboten velter.
Den totale regningen for Mobile ALOHA kom på $32 000. Det er ikke dårlig med tanke på at dette er en prototyp. Hvis Mobile ALOHA skulle settes i produksjon, kunne den blitt mye billigere enn det. Og det faktum at det er åpen kildekode, betyr at det snart kan komme flere maskinvareutviklinger for plattformen, noe som vil presse kostnadene ytterligere ned.
Elon Musk spådde at Teslas Optimus-robot til slutt vil selge til rundt $20k. Det er fortsatt ingen "legg i handlekurv" -knapp på Teslas nettsted, men uansett hvor mye du vil være villig til å betale for en.
Med Mobile ALOHA har vi nå en flott programvare- og maskinvareløsning som tyder på at vi kan få robot-husholdersker mye raskere enn vi trodde.