I ricercatori della New York University costruiscono un'intelligenza artificiale che vede attraverso gli occhi di un bambino

2 febbraio 2024

Occhi di bambino AI

I ricercatori della New York University si sono ispirati ai processi di apprendimento dei bambini per addestrare un sistema di intelligenza artificiale. 

Il metodo, illustrato nel rivista ScienzaL'intelligenza artificiale può apprendere dall'ambiente in cui si trova senza fare molto affidamento su dati etichettati, il che è fondamentale per il progetto dello studio.

Rispecchia il modo in cui i bambini imparano assorbendo grandi quantità di informazioni dall'ambiente circostante, dando gradualmente un senso al mondo che li circonda.

L'équipe ha creato un set di dati da 60 ore di registrazioni video in prima persona da una telecamera montata sulla testa indossata da bambini di età compresa tra i sei mesi e i due anni per replicare la prospettiva di un bambino nel loro modello di intelligenza artificiale. 

I ricercatori hanno quindi addestrato un modello di intelligenza artificiale con apprendimento auto-supervisionato (SSL) utilizzando il set di dati video per verificare se l'intelligenza artificiale fosse in grado di cogliere il concetto di azioni e cambiamenti analizzando le informazioni temporali o legate al tempo nei video come fanno i bambini.

Gli approcci SSL consentono ai modelli di intelligenza artificiale di apprendere modelli e strutture nei dati senza etichette esplicite.

Autore dello studio Emri Orhan, scrivendo nel suo blog di ricerca, in precedenza aveva sostenuto la necessità di concentrarsi maggiormente sulla SSL nella ricerca sull'IA, che ritiene fondamentale per comprendere i processi di apprendimento complessi. 

Orhan scrive: "Si dice spesso che i bambini imparino il significato delle parole in modo molto efficiente. Ad esempio, nel secondo anno di vita si sostiene che i bambini imparino in media poche parole al giorno. Questo suggerisce che probabilmente sono in grado di imparare la maggior parte delle parole da una manciata di esposizioni (forse spesso da una sola esposizione), un fenomeno noto anche come mappatura rapida".

Lo studio mirava anche a stabilire se l'IA avesse bisogno di pregiudizi o "scorciatoie" integrate per apprendere in modo efficace o se potesse sviluppare una comprensione del mondo attraverso algoritmi di apprendimento generale, proprio come fa un bambino. 

I risultati sono stati intriganti. Nonostante il video coprisse solo circa 1% delle ore di veglia del bambino, il sistema di intelligenza artificiale è riuscito ad apprendere numerose parole e concetti, dimostrando l'efficienza dell'apprendimento da dati limitati ma mirati.

I risultati includono:

  • Prestazioni di riconoscimento delle azioni: I modelli di intelligenza artificiale addestrati sul set di dati SAYCam sono stati molto efficaci nel riconoscere le azioni dai video. Quando sono stati testati su compiti di riconoscimento di azioni a grana fine come Kinetics-700 e Something-Something-V2 (SSV2), i modelli hanno mostrato prestazioni impressionanti, anche con un numero ridotto di esempi etichettati per l'addestramento.
  • Confronto con il set di dati Kinetics-700: I modelli addestrati da SAYCam sono stati confrontati con modelli addestrati su Kinetics-700, un set di dati diversificato di brevi clip di YouTube. I modelli di SAYCam hanno ottenuto risultati sorprendenti e competitivi, suggerendo che i dati video incentrati sui bambini e realistici dal punto di vista dello sviluppo hanno fornito un ambiente di apprendimento ricco per l'IA, simile o addirittura migliore rispetto ai contenuti variegati presenti su YouTube.
  • Abilità nell'interpolazione video: Un risultato interessante è stata la capacità dei modelli di eseguire l'interpolazione video, ossia di prevedere i segmenti mancanti all'interno di una sequenza video. Questo dimostra una comprensione delle dinamiche temporali e della continuità nelle scene visive, che rispecchia il modo in cui gli esseri umani percepiscono e prevedono le azioni.
  • Rappresentazioni robuste degli oggetti: Lo studio ha anche rilevato che i modelli addestrati con i video hanno sviluppato rappresentazioni di oggetti più robuste rispetto a quelli addestrati su immagini statiche. Ciò è risultato evidente in compiti che richiedevano il riconoscimento di oggetti in diverse condizioni, evidenziando il valore delle informazioni temporali nell'apprendimento di modelli più resistenti e versatili.
  • Scala dei dati e prestazioni del modello: La ricerca ha analizzato come le prestazioni dei modelli siano migliorate con l'aumento dei dati video provenienti dal set di dati SAYCam. Ciò suggerisce che l'accesso a dati più ampi e realistici aumenterà le prestazioni del modello.

Wai Keen Vong, ricercatore presso il Center for Data Science della NYU, ha discusso la novità di questo approccio"Dimostriamo, per la prima volta, che una rete neurale addestrata su questo input realistico per lo sviluppo di un singolo bambino può imparare a collegare le parole alle loro controparti visive". 

Parlando dei problemi affrontati dai moderni modelli di IA generativa, Vong ha detto: "Gli attuali sistemi di IA all'avanguardia sono addestrati utilizzando quantità astronomiche di dati (spesso miliardi/trilioni di parole), eppure gli esseri umani riescono ad apprendere e utilizzare il linguaggio con molti meno dati (centinaia di milioni di parole), quindi il collegamento tra questi progressi nell'apprendimento automatico e l'acquisizione del linguaggio umano non è chiaro."

L'interesse per i nuovi metodi di apprendimento automatico "leggeri" è in aumento. Per prima cosa, i colossali modelli monolitici come GPT-3 e GPT-4 hanno un'immensa richiesta di potenza che non sono facili da soddisfare. 

In secondo luogo, la creazione di sistemi di intelligenza artificiale bio-ispirati è fondamentale per progettare modelli o robot che "pensino" e "si comportino" autenticamente come noi.

Vong ha anche riconosciuto i limiti dello studio, osservando: "Un'avvertenza è che l'input linguistico al modello è il testo, non il segnale vocale sottostante che i bambini ricevono".

Questo studio ha messo in discussione i tradizionali modelli di addestramento dell'intelligenza artificiale e ha contribuito al dibattito in corso sui modi più efficaci per imitare l'apprendimento biologico.

L'interesse per questo argomento è destinato a crescere quando i colossali modelli di IA inizieranno a mostrare i limiti del futuro. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni