AI matchar studenter som löser resonemangsproblem

1 augusti 2023

AI presterar jämförbart med studenter i SAT-frågor

En studie av psykologer vid UCLA har visat att GPT-3 är ungefär lika bra som studenter på universitetsnivå på att lösa resonemangsproblem.

Vi vet att LLM:er som GPT-3 är bra på att generera svar baserat på de data som de har tränats på, men deras förmåga att resonera kan ifrågasättas. Analogiskt resonemang är den förmåga människor har att ta det vi lär oss från en orelaterad erfarenhet och tillämpa det på ett problem som vi inte har ställts inför tidigare.

Det är den förmågan du förlitar dig på när du ska svara på en fråga som du aldrig har sett förut. Du kan resonera dig fram till svaret baserat på tidigare problem som du har löst. Och från forskningen verkar det som om GPT-3 har utvecklat den förmågan också.

Den Forskare vid UCLA sätta GPT-3 att arbeta med en uppsättning problem som liknar Ravens progressiva matriser som går ut på att förutsäga nästa bild i en serie av bilder. Här är en enkel uppgift som du kan prova.

Exempel på Raven Progressive Matrix
Raven Progressive Matrix Exempel - Källa: Wikipedia

GPT-3 klarade sig bra jämfört med de 40 studenter från UCLA som fick göra samma test. AI fick svaren rätt 80% av tiden, medan de 40 studenterna i genomsnitt var cirka 60%. De bästa studenterna fick ungefär samma poäng som GPT-3.

Hongjing Lu, psykologiprofessor vid UCLA och huvudförfattare till studien, säger: "Överraskande nog klarade sig GPT-3 inte bara ungefär lika bra som människor, utan gjorde också liknande misstag."

Forskarna bad också GPT-3 att lösa några ordassociationsproblem. Till exempel: "'Bil' är till 'väg' som 'båt' är till vilket ord?". Svaret är självklart "vatten", men den här typen av frågor kan vara knepiga för en AI.

Åtminstone trodde forskarna att det kunde vara knepigt. Det visade sig att GPT-3 presterade bättre än vad de genomsnittliga college-sökande gjorde på sina SAT-prov.

GPT-3 kämpar med problem som är lätta för människor

Det som AI-modeller har svårt för är problem som kräver en visuell förståelse av det fysiska rummet. Om du ger GPT-3 en lista med verktyg som en hammare, en spik och en tavla kan den inte komma på den uppenbara lösningen att hänga upp tavlan på väggen.

Den här typen av problem är lätta för människor att lösa eftersom vi kan se, hålla och känna fysiska föremål i ett utrymme som vi upptar. Dessa upplevelser gör det enkelt för våra hjärnor att lära sig och lösa problem på ett sätt som AI-modeller inte kan. Med det sagt blir GPT-4 bättre på den här typen av resonemang nu.

Forskarna kunde visserligen mäta GPT-3:s prestanda, men de har ingen aning om vilken "tankeprocess" den följer för att få fram svaren. Följer den en liknande tankeprocess som människor gör eller gör den något helt annat? Eftersom GPT-3 är en sluten modell är det inte möjligt att titta under huven för att se vad som händer. 

Det överraskande resultatet av denna forskning är att GPT-3 verkar kunna lösa nya problem utan någon direkt träning. Det är nära i linje med hur människor löser nya problem. GPT-4 förväntas prestera ännu bättre på dessa problem och vem vet vilka andra "tänkande" förmågor som kan dyka upp med mer testning.

Även om rumsliga resonemang är en utmaning för LLM:er kan dessa utmaningar lösas med visuella modeller som Googles RT-2 som nyligen presenterades. När AI-modeller kan börja "se" och interagera fysiskt med sin omgivning kommer deras problemlösningsförmåga att förbättras exponentiellt.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar