I ricercatori della New York University si sono ispirati ai processi di apprendimento dei bambini per addestrare un sistema di intelligenza artificiale.
Il metodo, illustrato nel rivista ScienzaL'intelligenza artificiale può apprendere dall'ambiente in cui si trova senza fare molto affidamento su dati etichettati, il che è fondamentale per il progetto dello studio.
Rispecchia il modo in cui i bambini imparano assorbendo grandi quantità di informazioni dall'ambiente circostante, dando gradualmente un senso al mondo che li circonda.
L'équipe ha creato un set di dati da 60 ore di registrazioni video in prima persona da una telecamera montata sulla testa indossata da bambini di età compresa tra i sei mesi e i due anni per replicare la prospettiva di un bambino nel loro modello di intelligenza artificiale.
1/ Oggi su Science, addestriamo una rete neurale da zero attraverso gli occhi e le orecchie di un bambino. Il modello impara a mappare le parole ai referenti visivi, mostrando come l'apprendimento del linguaggio dalla prospettiva di un solo bambino sia possibile con gli attuali strumenti di intelligenza artificiale. https://t.co/hPZiiQt6Vv pic.twitter.com/wa8jfn9b5Z
- Wai Keen Vong (@wkvong) 1 febbraio 2024
I ricercatori hanno quindi addestrato un modello di intelligenza artificiale con apprendimento auto-supervisionato (SSL) utilizzando il set di dati video per verificare se l'intelligenza artificiale fosse in grado di cogliere il concetto di azioni e cambiamenti analizzando le informazioni temporali o legate al tempo nei video come fanno i bambini.
Gli approcci SSL consentono ai modelli di intelligenza artificiale di apprendere modelli e strutture nei dati senza etichette esplicite.
Autore dello studio Emri Orhan, scrivendo nel suo blog di ricerca, in precedenza aveva sostenuto la necessità di concentrarsi maggiormente sulla SSL nella ricerca sull'IA, che ritiene fondamentale per comprendere i processi di apprendimento complessi.
Orhan scrive: "Si dice spesso che i bambini imparino il significato delle parole in modo molto efficiente. Ad esempio, nel secondo anno di vita si sostiene che i bambini imparino in media poche parole al giorno. Questo suggerisce che probabilmente sono in grado di imparare la maggior parte delle parole da una manciata di esposizioni (forse spesso da una sola esposizione), un fenomeno noto anche come mappatura rapida".
4/ Per verificarlo, cosa c'è di meglio che addestrare una rete neurale, non su enormi quantità di dati provenienti dal web, ma solo sugli input ricevuti da un singolo bambino? Che cosa imparerebbe allora, se mai lo facesse? pic.twitter.com/bQ9aVbXUlB
- Wai Keen Vong (@wkvong) 1 febbraio 2024
Lo studio mirava anche a stabilire se l'IA avesse bisogno di pregiudizi o "scorciatoie" integrate per apprendere in modo efficace o se potesse sviluppare una comprensione del mondo attraverso algoritmi di apprendimento generale, proprio come fa un bambino.
I risultati sono stati intriganti. Nonostante il video coprisse solo circa 1% delle ore di veglia del bambino, il sistema di intelligenza artificiale è riuscito ad apprendere numerose parole e concetti, dimostrando l'efficienza dell'apprendimento da dati limitati ma mirati.
I risultati includono:
- Prestazioni di riconoscimento delle azioni: I modelli di intelligenza artificiale addestrati sul set di dati SAYCam sono stati molto efficaci nel riconoscere le azioni dai video. Quando sono stati testati su compiti di riconoscimento di azioni a grana fine come Kinetics-700 e Something-Something-V2 (SSV2), i modelli hanno mostrato prestazioni impressionanti, anche con un numero ridotto di esempi etichettati per l'addestramento.
- Confronto con il set di dati Kinetics-700: I modelli addestrati da SAYCam sono stati confrontati con modelli addestrati su Kinetics-700, un set di dati diversificato di brevi clip di YouTube. I modelli di SAYCam hanno ottenuto risultati sorprendenti e competitivi, suggerendo che i dati video incentrati sui bambini e realistici dal punto di vista dello sviluppo hanno fornito un ambiente di apprendimento ricco per l'IA, simile o addirittura migliore rispetto ai contenuti variegati presenti su YouTube.
- Abilità nell'interpolazione video: Un risultato interessante è stata la capacità dei modelli di eseguire l'interpolazione video, ossia di prevedere i segmenti mancanti all'interno di una sequenza video. Questo dimostra una comprensione delle dinamiche temporali e della continuità nelle scene visive, che rispecchia il modo in cui gli esseri umani percepiscono e prevedono le azioni.
- Rappresentazioni robuste degli oggetti: Lo studio ha anche rilevato che i modelli addestrati con i video hanno sviluppato rappresentazioni di oggetti più robuste rispetto a quelli addestrati su immagini statiche. Ciò è risultato evidente in compiti che richiedevano il riconoscimento di oggetti in diverse condizioni, evidenziando il valore delle informazioni temporali nell'apprendimento di modelli più resistenti e versatili.
- Scala dei dati e prestazioni del modello: La ricerca ha analizzato come le prestazioni dei modelli siano migliorate con l'aumento dei dati video provenienti dal set di dati SAYCam. Ciò suggerisce che l'accesso a dati più ampi e realistici aumenterà le prestazioni del modello.
6/ Risultati: Anche con dati limitati, abbiamo scoperto che il modello è in grado di acquisire mappature parola-referente a partire da decine o centinaia di esempi, di generalizzare a colpo sicuro a nuove serie di dati visivi e di ottenere un allineamento multimodale. Anche in questo caso, è possibile un vero e proprio apprendimento linguistico a partire... pic.twitter.com/FCHfZCqftr
- Wai Keen Vong (@wkvong) 1 febbraio 2024
Wai Keen Vong, ricercatore presso il Center for Data Science della NYU, ha discusso la novità di questo approccio"Dimostriamo, per la prima volta, che una rete neurale addestrata su questo input realistico per lo sviluppo di un singolo bambino può imparare a collegare le parole alle loro controparti visive".
Parlando dei problemi affrontati dai moderni modelli di IA generativa, Vong ha detto: "Gli attuali sistemi di IA all'avanguardia sono addestrati utilizzando quantità astronomiche di dati (spesso miliardi/trilioni di parole), eppure gli esseri umani riescono ad apprendere e utilizzare il linguaggio con molti meno dati (centinaia di milioni di parole), quindi il collegamento tra questi progressi nell'apprendimento automatico e l'acquisizione del linguaggio umano non è chiaro."
L'interesse per i nuovi metodi di apprendimento automatico "leggeri" è in aumento. Per prima cosa, i colossali modelli monolitici come GPT-3 e GPT-4 hanno un'immensa richiesta di potenza che non sono facili da soddisfare.
In secondo luogo, la creazione di sistemi di intelligenza artificiale bio-ispirati è fondamentale per progettare modelli o robot che "pensino" e "si comportino" autenticamente come noi.
Vong ha anche riconosciuto i limiti dello studio, osservando: "Un'avvertenza è che l'input linguistico al modello è il testo, non il segnale vocale sottostante che i bambini ricevono".
Questo studio ha messo in discussione i tradizionali modelli di addestramento dell'intelligenza artificiale e ha contribuito al dibattito in corso sui modi più efficaci per imitare l'apprendimento biologico.
L'interesse per questo argomento è destinato a crescere quando i colossali modelli di IA inizieranno a mostrare i limiti del futuro.