Forskere fra New York University lod sig inspirere af børns læringsprocesser for at træne et AI-system.
Metoden, der er beskrevet i tidsskriftet Sciencegør det muligt for AI at lære af sine omgivelser uden at være stærkt afhængig af mærkede data, hvilket er nøglen til undersøgelsens design.
Det afspejler, hvordan børn lærer ved at absorbere store mængder information fra deres omgivelser og gradvist skabe mening i verden omkring dem.
Teamet skabte et datasæt med 60 timers førstepersons videooptagelser fra et hovedbåret kamera båret af børn i alderen seks måneder til to år for at gengive et barns perspektiv i deres AI-model.
1/ I Today in Science træner vi et neuralt net fra bunden gennem et barns øjne og ører. Modellen lærer at kortlægge ord til visuelle referencer og viser, hvordan det er muligt at lære sprog ud fra bare ét barns perspektiv med nutidens AI-værktøjer. https://t.co/hPZiiQt6Vv pic.twitter.com/wa8jfn9b5Z
- Wai Keen Vong (@wkvong) 1. februar 2024
Forskerne trænede derefter en AI-model med selvovervåget læring (SSL) ved hjælp af videodatasættet for at se, om AI kunne forstå begrebet handlinger og ændringer ved at analysere tidsmæssige eller tidsrelaterede oplysninger i videoerne, som børn gør.
SSL-tilgange gør det muligt for AI-modeller at lære mønstre og strukturer i data uden eksplicitte etiketter.
Undersøgelsens forfatter Emri Orhan, skriver i sin forskningsbloghar tidligere slået til lyd for et større fokus på SSL i AI-forskning, som han mener er afgørende for at forstå komplekse læringsprocesser.
Orhan skrev: "Man siger ofte, at børn lærer ordenes betydning meget effektivt. For eksempel hævdes det, at børn i deres andet år i gennemsnit lærer et par ord om dagen. Det tyder på, at de sandsynligvis er i stand til at lære de fleste af deres ord fra blot en håndfuld eksponeringer (måske ofte kun fra en enkelt eksponering), et fænomen, der også er kendt som hurtig kortlægning."
4/ Hvad er bedre end at træne et neuralt netværk, ikke på enorme mængder data fra nettet, men kun på det input, som et enkelt barn modtager, for at teste dette? Hvad ville det så lære, hvis noget? pic.twitter.com/bQ9aVbXUlB
- Wai Keen Vong (@wkvong) 1. februar 2024
Undersøgelsen havde også til formål at finde ud af, om AI har brug for indbyggede fordomme eller "genveje" for at lære effektivt, eller om den kan udvikle en forståelse af verden gennem generelle læringsalgoritmer, ligesom et barn gør.
Resultaterne var spændende. På trods af at videoen kun dækkede ca. 1% af barnets vågne timer, kunne AI-systemet lære adskillige ord og begreber, hvilket viser effektiviteten af at lære fra begrænsede, men målrettede data.
Resultaterne omfatter:
- Performance for genkendelse af handlinger: De AI-modeller, der blev trænet på SAYCam-datasættet, var meget effektive til at genkende handlinger fra videoer. Når de blev testet på finkornede handlingsgenkendelsesopgaver som Kinetics-700 og Something-Something-V2 (SSV2), viste modellerne en imponerende ydeevne, selv med kun et lille antal mærkede eksempler til træning.
- Sammenligning med Kinetics-700-datasættet: De SAYCam-trænede modeller blev sammenlignet med modeller, der var trænet på Kinetics-700, et varieret datasæt med korte YouTube-klip. Bemærkelsesværdigt nok klarede SAYCam-modellerne sig konkurrencedygtigt, hvilket tyder på, at de børnecentrerede, udviklingsmæssigt realistiske videodata gav et rigt læringsmiljø for AI'en, svarende til eller endda bedre end det varierede indhold, der findes på YouTube.
- Færdighed i videointerpolation: Et interessant resultat var modellernes evne til at udføre videointerpolation - at forudsige manglende segmenter i en videosekvens. Det viste en forståelse af tidsmæssig dynamik og kontinuitet i visuelle scener, som afspejler den måde, mennesker opfatter og forudsiger handlinger på.
- Robuste objektrepræsentationer: Undersøgelsen viste også, at videotrænede modeller udviklede mere robuste objektrepræsentationer end dem, der blev trænet på statiske billeder. Dette var tydeligt i opgaver, der krævede genkendelse af objekter under forskellige forhold, hvilket fremhæver værdien af tidsmæssig information i indlæringen af mere robuste og alsidige modeller.
- Dataskalering og modelydelse: Forskningen undersøgte, hvordan modellernes ydeevne blev forbedret med flere videodata fra SAYCam-datasættet. Det tyder på, at adgang til mere omfattende, realistiske data vil øge modellernes ydeevne.
6/ Resultater: Selv med begrænsede data fandt vi ud af, at modellen kan tilegne sig ord-referent-mappinger fra blot ti til hundredvis af eksempler, generalisere zero-shot til nye visuelle datasæt og opnå multimodal tilpasning. Igen er ægte sprogindlæring mulig fra et barns... pic.twitter.com/FCHfZCqftr
- Wai Keen Vong (@wkvong) 1. februar 2024
Wai Keen Vong, forsker ved NYU's Center for Data Science, diskuterede nyheden i denne tilgang"Vi viser for første gang, at et neuralt netværk, der er trænet på dette udviklingsmæssigt realistiske input fra et enkelt barn, kan lære at forbinde ord med deres visuelle modstykker."
Om de problemer, som moderne generative AI-modeller står over for, sagde Vong: "Dagens avancerede AI-systemer trænes ved hjælp af astronomiske mængder data (ofte milliarder/trillioner af ord), og alligevel formår mennesker at lære og bruge sprog med langt færre data (hundreder af millioner af ord), så forbindelsen mellem disse fremskridt inden for maskinlæring og menneskelig sprogtilegnelse er ikke klar."
Interessen for nye, 'lette' maskinlæringsmetoder er stigende. For det første er kolossale monolitiske modeller som GPT-3 og GPT-4 har enorme magtbehov som ikke er nemme at tilfredsstille.
For det andet at skabe bio-inspirerede AI-systemer er nøglen til at designe modeller eller robotter, der autentisk 'tænker' og 'opfører sig', som vi gør.
Vong erkendte også undersøgelsens begrænsninger og bemærkede: "Et forbehold er, at det sproglige input til modellen er tekst, ikke det underliggende talesignal, som børn modtager."
Denne undersøgelse udfordrede traditionelle AI-træningsmodeller og bidrog til den igangværende diskurs om de mest effektive måder at efterligne biologisk læring på.
Interessen for dette emne vil vokse, når kolossale AI-modeller begynder at vise begrænsninger for fremtiden.