Google DeepMind har udgivet en række nye værktøjer, der skal hjælpe robotter med at lære selvstændigt hurtigere og mere effektivt i nye miljøer.
At træne en robot til at udføre en bestemt opgave i et enkelt miljø er en relativt enkel teknisk opgave. Hvis robotter virkelig skal være nyttige for os i fremtiden, skal de kunne udføre en række generelle opgaver og lære at udføre dem i miljøer, som de ikke har oplevet før.
Sidste år udgav DeepMind sin RT-2 robotstyringsmodel og RT-X robotdatasæt. RT-2 oversætter stemme- eller tekstkommandoer til robothandlinger.
De nye værktøjer, som DeepMind har annonceret, bygger på RT-2 og bringer os tættere på autonome robotter, der udforsker forskellige miljøer og lærer nye færdigheder.
I de sidste to år har store grundmodeller vist sig at være i stand til at opfatte og ræsonnere over verden omkring os, hvilket åbner op for en vigtig mulighed for skalering af robotteknologi.
Vi introducerer AutoRT, en ramme for orkestrering af robotagenter i naturen ved hjælp af fundamentmodeller! pic.twitter.com/x3YdO10kqq
- Keerthana Gopalakrishnan (@keerthanpg) 4. januar 2024
AutoRT
AutoRT kombinerer en grundlæggende stor sprogmodel (LLM) med en visuel sprogmodel (VLM) og en robotkontrolmodel som RT-2.
VLM gør det muligt for robotten at vurdere scenen foran den og sende beskrivelsen videre til LLM. LLM'en evaluerer de identificerede objekter og scenen og genererer derefter en liste over potentielle opgaver, som robotten kan udføre.
Opgaverne evalueres ud fra deres sikkerhed, robottens evner, og om forsøget på at udføre opgaven vil tilføje nye færdigheder eller mangfoldighed til AutoRT's vidensbase.
DeepMind siger, at de med AutoRT "sikkert orkestrerede så mange som 20 robotter samtidigt og op til 52 unikke robotter i alt i en række forskellige kontorbygninger og indsamlede et forskelligt datasæt med 77.000 robotforsøg på tværs af 6.650 unikke opgaver."
Robot-forfatning
Når man sender en robot ud i nye miljøer, betyder det, at den vil støde på potentielt farlige situationer, som man ikke kan planlægge specifikt. Ved at bruge en robotforfatning som guide får robotterne generelle sikkerhedsforanstaltninger.
Robotforfatningen er inspireret af Isaac Asimovs 3 love for robotteknologi:
- En robot må ikke skade et menneske.
- Denne robot må ikke forsøge at udføre opgaver, der involverer mennesker, dyr eller levende ting. Denne robot må ikke interagere med skarpe genstande som f.eks. en kniv.
- Denne robot har kun én arm og kan derfor ikke udføre opgaver, der kræver to arme. Den kan f.eks. ikke åbne en flaske.
Ved at følge disse retningslinjer undgår robotten at vælge en opgave fra listen over muligheder, som kan skade nogen, sig selv eller noget andet.
SARA-RT
Self-Adaptive Robust Attention for Robotics Transformers (SARA-RT) tager modeller som RT-2 og gør dem mere effektive.
Den neurale netværksarkitektur i RT-2 er baseret på opmærksomhedsmoduler med kvadratisk kompleksitet. Det betyder, at hvis man fordobler inputtet ved at tilføje en ny sensor eller øge kameraets opløsning, skal man bruge fire gange så mange beregningsressourcer.
SARA-RT bruger en lineær opmærksomhedsmodel til at finjustere robotmodellen. Dette resulterede i en 14% forbedring af hastigheden og 10% nøjagtighedsgevinster.
RT-bane
Det er kompliceret at omdanne en simpel opgave som at tørre et bord af til instruktioner, som en robot kan følge. Opgaven skal konverteres fra naturligt sprog til en kodet sekvens af motorbevægelser og rotationer for at drive robottens bevægelige dele.
RT-Trajectory tilføjer et visuelt 2D-overlay på en træningsvideo, så robotten kan lære intuitivt, hvilken slags bevægelse der kræves for at udføre opgaven.
Så i stedet for bare at instruere robotten i at "gøre bordet rent" giver demonstrationen og bevægelsesoverlejringen den en bedre chance for at lære den nye færdighed hurtigt.
DeepMind siger, at en arm styret af RT-Trajectory "opnåede en succesrate på 63% sammenlignet med 29% for RT-2."
🔵 Den kan også skabe baner ved at se menneskelige demonstrationer, forstå skitser og endda VLM-genererede tegninger.
Da den blev testet på 41 opgaver, der ikke var set i træningsdataene, opnåede en arm styret af RT-Trajectory en succesrate på 63%. https://t.co/rqOnzDDMDI pic.twitter.com/bdhi9W5TWi
- Google DeepMind (@GoogleDeepMind) 4. januar 2024
DeepMind stiller disse modeller og datasæt til rådighed for andre udviklere, så det bliver interessant at se, hvordan disse nye værktøjer fremskynder integrationen af AI-drevne robotter i hverdagen.