Google ha presentato alcuni risultati entusiasmanti dei test del suo ultimo modello di robot con visione-linguaggio-azione (VLA), chiamato Robotics Transformer 2 (RT-2).
La maggior parte delle discussioni recenti sull'intelligenza artificiale si è concentrata su modelli linguistici di grandi dimensioni come ChatGPT e Llama. Le risposte fornite da questi modelli, pur essendo utili, rimangono sullo schermo del dispositivo. Con RT-2, Google sta portando la potenza dell'IA nel mondo fisico. Un mondo in cui i robot ad autoapprendimento potrebbero presto far parte della nostra vita quotidiana.
La destrezza dei robot è migliorata notevolmente, ma hanno ancora bisogno di istruzioni di programmazione molto specifiche per svolgere anche compiti semplici. Quando il compito cambia, anche di poco, il programma deve essere modificato.
Con RT-2, Google ha creato un modello che consente a un robot di classificare e imparare dalle cose che vede in combinazione con le parole che sente. Quindi ragiona sulle istruzioni ricevute e compie azioni fisiche in risposta.
Con gli LLM, una frase viene suddivisa in token, ovvero pezzi di parole che permettono all'intelligenza artificiale di comprendere la frase. Google ha preso questo principio e ha suddiviso in token i movimenti che un robot dovrebbe fare in risposta a un comando.
I movimenti di un braccio robotico con una pinza, ad esempio, verrebbero suddivisi in token di cambiamenti nelle posizioni x e y o nelle rotazioni.
In passato, i robot hanno solitamente richiesto un'esperienza diretta per eseguire un'azione. Ma con il nostro nuovo modello di visione-linguaggio-azione, RT-2, ora possono imparare sia da testi che da immagini dal web per affrontare compiti nuovi e complessi. Per saperne di più ↓ https://t.co/4DSRwUHhwg
- Google (@Google) 28 luglio 2023
Che cosa permette di fare l'RT-2 a un robot?
La capacità di capire ciò che vede e sente e di ragionare a catena significa che il robot non ha bisogno di essere programmato per nuovi compiti.
Un esempio che Google ha fornito nel suo DeepMind post sul blog RT-2 era "decidere quale oggetto poteva essere usato come martello improvvisato (un sasso), o quale tipo di bevanda è meglio per una persona stanca (una bevanda energetica)".
Nei test condotti da Google, un braccio robotico e una pinza sono stati sottoposti a una serie di richieste che richiedevano la comprensione del linguaggio, la visione e il ragionamento per poter compiere l'azione appropriata. Ad esempio, quando gli sono stati presentati due sacchetti di patatine su un tavolo, con uno leggermente oltre il bordo, al robot è stato detto di "raccogliere il sacchetto che sta per cadere dal tavolo".
Può sembrare semplice, ma la consapevolezza contestuale necessaria per prendere la borsa giusta è innovativa nel mondo della robotica.
Per spiegare quanto RT-2 sia più avanzato dei normali LLM, un altro blog di Google ha spiegato che "Un robot deve essere in grado di riconoscere una mela nel contesto, distinguerla da una palla rossa, capire che aspetto ha e, soprattutto, sapere come raccoglierla".
Anche se è ancora presto, la prospettiva di robot domestici o industriali che aiutano a svolgere una varietà di compiti in ambienti mutevoli è entusiasmante. Anche le applicazioni per la difesa sono quasi certamente oggetto di attenzione.
Il braccio robotico di Google non è sempre andato bene e aveva un grande pulsante rosso di spegnimento di emergenza in caso di malfunzionamento. Speriamo che i robot del futuro abbiano qualcosa di simile nel caso in cui un giorno non siano soddisfatti del capo.