DeepMind di Google ha collaborato con 33 diversi laboratori accademici per creare un set di dati per l'addestramento dell'IA basato su 22 diversi tipi di robot.
I robot sono molto bravi a fare una cosa specifica. Se si vuole che facciano qualcosa di leggermente diverso, il robot deve essere addestrato da zero. L'obiettivo finale della robotica è avere un robot che sia bravo in una gamma generale di azioni e che sia in grado di apprendere da solo nuove abilità.
Per addestrare un modello di intelligenza artificiale è necessario un ampio set di dati relativi allo scopo del modello. Modelli linguistici come GPT-4 sono addestrati su grandi quantità di dati scritti. Generatori di immagini come DALL-E 3 sono addestrati su grandi quantità di immagini.
Con X-Embodiment, DeepMind ha creato un set di dati di azioni robotiche basate su 22 tipi diversi di robot. Ha poi utilizzato questo set di dati per addestrare nuovi modelli basati sui suoi modelli robotici RT-1 e RT-2.
I dati di X-Embodiment sono stati ricavati da "22 incarnazioni di robot, che hanno dimostrato più di 500 abilità e 150.000 compiti in più di 1 milione di episodi", secondo quanto riportato da Il post di DeepMind.
Vi presentiamo 𝗥𝗧-𝗫: un modello di IA generalista che aiuta a far progredire il modo in cui i robot possono imparare nuove abilità. 🤖
Per addestrarlo, abbiamo collaborato con 33 laboratori accademici di tutto il mondo per costruire un nuovo set di dati con le esperienze acquisite da 22 diversi tipi di robot.
Per saperne di più: https://t.co/k6tE62gQGP pic.twitter.com/IXTy2g4Lty
- Google DeepMind (@GoogleDeepMind) 3 ottobre 2023
I precedenti risultati dei test dell'RT-1 e Modelli RT-2 erano già notevoli, ma DeepMind ha scoperto che le versioni RT-X hanno ottenuto risultati significativamente migliori grazie alla natura generale del nuovo set di dati.
I test prevedevano il confronto tra un robot controllato da un modello addestrato per un compito specifico e lo stesso robot controllato dal modello RT-1-X. RT-1-X ha ottenuto in media 50% in più rispetto ai modelli progettati specificamente per compiti come l'apertura di una porta o il passaggio di un cavo.
RT-2, il modello robotico VLA (vision-language-action) di Google, consente ai robot di imparare dai dati web, verbali e visivi e di agire senza essere addestrati. Quando gli ingegneri hanno addestrato RT-2-X con il set di dati X-Embodiment, hanno scoperto che RT-2-X aveva un successo tre volte superiore a quello di RT-2 per quanto riguarda le abilità emergenti.
In altre parole, il robot stava imparando nuove abilità che non aveva prima, basandosi sulle capacità che altri robot avevano contribuito al set di dati. Il trasferimento di competenze tra diversi tipi di robot potrebbe essere una svolta per lo sviluppo rapido della robotica.
Questi risultati sono motivo di ottimismo: presto vedremo robot con competenze più generali e con la capacità di apprenderne di nuove senza essere specificamente addestrati.
DeepMind sostiene che questa ricerca potrebbe essere applicata alla proprietà di auto-miglioramento di RoboCat, il suo agente AI automigliorante per la robotica.
La prospettiva di avere un robot che continua a migliorare e ad apprendere nuove competenze sarebbe un enorme vantaggio in campi come la produzione, l'agricoltura o la sanità. Queste nuove competenze potrebbero essere applicate anche nel settore industria della difesa che è forse una prospettiva meno attraente, anche se inevitabile.