Forskere ved New York University bygger kunstig intelligens som ser gjennom et barns øyne

2. februar 2024

Barnets øyne AI

Forskere fra New York University lot seg inspirere av barns læringsprosesser for å trene opp et AI-system. 

Metoden, som er beskrevet i tidsskriftet Sciencegjør det mulig for AI å lære av omgivelsene uten å være avhengig av merkede data, noe som er nøkkelen til studiens design.

Det gjenspeiler hvordan barn lærer ved å absorbere store mengder informasjon fra omgivelsene og gradvis skape mening i verden rundt seg.

Teamet skapte et datasett med 60 timer med førstepersons videoopptak fra et hodemontert kamera som ble båret av barn i alderen seks måneder til to år, for å gjenskape et barns perspektiv i AI-modellen. 

Forskerne trente deretter opp en AI-modell for selvveiledet læring (SSL) ved hjelp av videodatasettet for å se om AI kunne forstå konseptet med handlinger og endringer ved å analysere tidsmessig eller tidsrelatert informasjon i videoene, slik barn gjør.

SSL-tilnærminger gjør det mulig for AI-modeller å lære mønstre og strukturer i dataene uten eksplisitte merkelapper.

Forfatter av studien, Emri Orhan, skriver i forskningsbloggen sinhar tidligere tatt til orde for et større fokus på SSL i AI-forskningen, som han mener er avgjørende for å forstå komplekse læringsprosesser. 

Orhan skrev: "Det sies ofte at barn lærer seg betydningen av ord svært effektivt. For eksempel hevdes det at barn i sitt andre leveår i gjennomsnitt lærer noen få ord om dagen. Dette tyder på at de sannsynligvis er i stand til å lære de fleste ordene sine fra bare en håndfull eksponeringer (kanskje ofte fra bare én eksponering), et fenomen som også er kjent som "fast mapping"."

Studien tok også sikte på å finne ut om AI trenger innebygde skjevheter eller "snarveier" for å lære effektivt, eller om den kan utvikle en forståelse av verden gjennom generelle læringsalgoritmer, omtrent som et barn gjør. 

Resultatene var spennende. Til tross for at videoen bare dekket omtrent 1% av barnets våkne timer, kunne AI-systemet lære seg en rekke ord og begreper, noe som viser hvor effektivt det er å lære fra begrensede, men målrettede data.

Resultatene inkluderer:

  • Ytelse for handlingsgjenkjenning: AI-modellene som ble trent opp på SAYCam-datasettet, var svært effektive til å gjenkjenne handlinger fra videoer. Når modellene ble testet på finkornede handlingsgjenkjenningsoppgaver som Kinetics-700 og Something-Something-V2 (SSV2), viste de imponerende ytelse, selv med bare et lite antall merkede eksempler til trening.
  • Sammenligning med Kinetics-700-datasettet: De SAYCam-trente modellene ble sammenlignet med modeller trent på Kinetics-700, et variert datasett med korte YouTube-klipp. SAYCam-modellene presterte konkurransedyktig, noe som tyder på at de barnesentrerte, utviklingsrealistiske videodataene ga et rikt læringsmiljø for AI-en, på linje med eller til og med bedre enn det varierte innholdet på YouTube.
  • Ferdigheter i videointerpolasjon: Et interessant resultat var modellenes evne til å utføre videointerpolasjon - å forutsi manglende segmenter i en videosekvens. Dette demonstrerte en forståelse av tidsdynamikk og kontinuitet i visuelle scener, noe som gjenspeiler måten mennesker oppfatter og forutser handlinger på.
  • Robuste objektrepresentasjoner: Studien viste også at videotrente modeller utviklet mer robuste objektrepresentasjoner enn modeller som var trent på statiske bilder. Dette var tydelig i oppgaver som krevde gjenkjenning av objekter under ulike forhold, noe som understreker verdien av temporal informasjon for å lære mer robuste og allsidige modeller.
  • Skalering av data og modellytelse: Forskningen undersøkte hvordan modellenes ytelse ble bedre med mer videodata fra SAYCam-datasettet. Dette tyder på at tilgang til mer omfattende, realistiske data vil øke modellens ytelse.

Wai Keen Vong, forsker ved NYUs senter for datavitenskap, diskuterte nyheten i denne tilnærmingen"Vi viser for første gang at et nevralt nettverk som er trent opp på denne utviklingsmessig realistiske inndataen fra ett enkelt barn, kan lære å knytte ord til deres visuelle motstykker." 

Vong sa følgende om problemene som moderne generative AI-modeller står overfor: "Dagens toppmoderne AI-systemer læres opp ved hjelp av astronomiske datamengder (ofte milliarder/billioner av ord), mens mennesker klarer å lære og bruke språk med langt mindre data (hundrevis av millioner av ord), så sammenhengen mellom disse fremskrittene innen maskinlæring og menneskelig språktilegnelse er ikke klar."

Interessen for nye, "lette" maskinlæringsmetoder er økende. For det første er kolossale, monolittiske modeller som GPT-3 og GPT-4 har enorme maktbehov som det ikke er lett å tilfredsstille. 

For det andre, å skape bioinspirerte AI-systemer er nøkkelen til å utforme modeller eller roboter som "tenker" og "oppfører seg" som oss.

Vong erkjente også studiens begrensninger, og bemerket: "Et forbehold er at språkinngangen til modellen er tekst, ikke det underliggende talesignalet som barna mottar."

Denne studien utfordret tradisjonelle AI-opplæringsmodeller og bidro til den pågående diskursen om de mest effektive måtene å etterligne biologisk læring på.

Interessen for dette temaet vil øke etter hvert som de kolossale AI-modellene begynner å vise begrensninger for fremtiden. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser