Forskare vid New York University bygger AI som ser genom ett barns ögon

2 februari 2024

Barnögon AI

Forskare från New York University tog inspiration från barns inlärningsprocesser för att träna ett AI-system. 

Metoden, som beskrivs i tidskriften Sciencegör det möjligt för AI att lära sig av sin omgivning utan att vara beroende av märkta data, vilket är nyckeln till studiens design.

Det speglar hur barn lär sig genom att absorbera stora mängder information från sin omgivning och gradvis förstå världen omkring sig.

Teamet skapade ett dataset med 60 timmars videoinspelningar i första person från en huvudburen kamera som bars av barn i åldrarna sex månader till två år för att återskapa ett barns perspektiv i sin AI-modell. 

Forskarna tränade sedan en AI-modell med självövervakad inlärning (SSL) med hjälp av videodatasetet för att se om AI kunde förstå konceptet med åtgärder och förändringar genom att analysera temporal eller tidsrelaterad information i videorna som barn gör.

SSL-metoder gör det möjligt för AI-modeller att lära sig mönster och strukturer i data utan uttryckliga etiketter.

Studieförfattare Emri Orhan, skriver i sin forskningsblogghar tidigare förespråkat ett större fokus på SSL inom AI-forskningen, som han menar är avgörande för att förstå komplexa inlärningsprocesser. 

Orhan skrev: "Barn sägs ofta lära sig ordens betydelse på ett mycket effektivt sätt. Under sitt andra levnadsår påstås barn till exempel lära sig i genomsnitt några ord om dagen. Detta tyder på att de förmodligen kan lära sig de flesta av sina ord från bara en handfull exponeringar (kanske ofta från bara en enda exponering), ett fenomen som också kallas snabb kartläggning."

Studien syftade också till att ta reda på om AI behöver inbyggda fördomar eller "genvägar" för att lära sig effektivt eller om det kan utveckla en förståelse för världen genom generella inlärningsalgoritmer, ungefär som ett barn gör. 

Resultaten var spännande. Trots att videon bara täckte cirka 1% av barnets vakna timmar kunde AI-systemet lära sig många ord och begrepp, vilket visar hur effektivt det är att lära sig från begränsade men riktade data.

Resultaten inkluderar:

  • Handling erkännande prestation: De AI-modeller som tränats på SAYCam-datasetet var mycket effektiva när det gällde att känna igen handlingar från videor. När modellerna testades på finkorniga actionigenkänningsuppgifter som Kinetics-700 och Something-Something-V2 (SSV2) visade de imponerande prestanda, även med bara ett litet antal märkta exempel för träning.
  • Jämförelse med datasetet Kinetics-700: De SAYCam-tränade modellerna jämfördes med modeller som tränats på Kinetics-700, ett varierat dataset med korta YouTube-klipp. Anmärkningsvärt nog presterade SAYCam-modellerna konkurrenskraftigt, vilket tyder på att de barncentrerade, utvecklingsrealistiska videodata gav en rik inlärningsmiljö för AI, liknande eller till och med bättre än det varierade innehåll som finns på YouTube.
  • Video interpolation skicklighet: Ett intressant resultat var modellernas förmåga att utföra videointerpolation - att förutsäga saknade segment i en videosekvens. Detta visade på en förståelse för temporal dynamik och kontinuitet i visuella scener, vilket speglar hur människor uppfattar och förutser handlingar.
  • Robusta objektrepresentationer: Studien visade också att videotränade modeller utvecklade mer robusta objektrepresentationer än de som tränades på statiska bilder. Detta var tydligt i uppgifter som krävde igenkänning av objekt under olika förhållanden, vilket belyser värdet av temporal information för att lära sig mer motståndskraftiga och mångsidiga modeller.
  • Dataskalning och modellprestanda: Forskningen undersökte hur modellernas prestanda förbättrades med ökad videodata från SAYCam-datasetet. Detta tyder på att tillgång till mer omfattande, realistiska data kommer att öka modellens prestanda.

Wai Keen Vong, forskare vid NYU:s Center for Data Science, diskuterade nyheten i detta tillvägagångssätt"Vi visar för första gången att ett neuralt nätverk som tränats på denna utvecklingsmässigt realistiska input från ett enda barn kan lära sig att koppla ord till deras visuella motsvarigheter." 

"Dagens avancerade AI-system tränas med hjälp av astronomiska mängder data (ofta miljarder/biljoner ord), men människor lyckas lära sig och använda språk med mycket mindre data (hundratals miljoner ord), så kopplingen mellan dessa framsteg inom maskininlärning och mänsklig språkinlärning är inte tydlig", säger Vong om de problem som moderna generativa AI-modeller står inför.

Intresset för nya, "lättviktiga" maskininlärningsmetoder ökar. För det första har kolossala monolitiska modeller som GPT-3 och GPT-4 har enorma maktbehov som inte är lätta att tillfredsställa. 

För det andra, att skapa bioinspirerade AI-system är nyckeln till att utforma modeller eller robotar som på ett autentiskt sätt "tänker" och "beter sig" som vi gör.

Vong erkände också studiens begränsningar och noterade: "En brasklapp är att språkinmatningen till modellen är text, inte den underliggande talsignal som barn får."

Denna studie utmanade traditionella AI-träningsmodeller och bidrog till den pågående diskussionen om de mest effektiva sätten att efterlikna biologisk inlärning.

Intresset för detta ämne kommer att öka i takt med att kolossala AI-modeller börjar visa på begränsningar för framtiden. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar