AI-modellers ydeevne: Ræsonnerer den eller reciterer den bare?

14. juli 2024

  • MIT-forskere testede, om AI-modeller er afhængige af ræsonnement eller genkaldelse for at udføre opgaver
  • Når LLM'erne blev stillet over for let ændrede opgaver, klarede de sig dårligere end på standardopgaverne
  • LLM'er er gode til at huske træningsdata, men ikke til at ræsonnere generelt i nye opgaver

Når ChatGPT giver dig det rigtige svar på din forespørgsel, ræsonnerer den så gennem forespørgslen, eller husker den blot svaret fra sine træningsdata?

Forskere fra MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) har designet en række tests for at se, om AI-modeller "tænker" eller bare har en god hukommelse.

Når du beder en AI-model om at løse et matematisk problem som "Hvad er 27+62?", kommer den hurtigt tilbage med det rigtige svar: 89. Hvordan kan vi vide, om den forstår den underliggende aritmetik eller blot har set problemet i sine træningsdata?

I deres papirForskerne testede GPT-4, GPT-3.5 Turbo, Claude 1.3 og PaLM2 for at se, om de kunne "generalisere ikke kun til usete forekomster af kendte opgaver, men også til nye opgaver."

De designede en serie på 11 opgaver, der adskilte sig en smule fra de standardopgaver, som LLM'erne generelt klarer sig godt i.

LLM'erne burde klare sig lige så godt med de "kontrafaktiske opgaver", hvis de anvender generelle og overførbare procedurer for opgaveløsning.

Hvis en LLM "forstår" matematik, bør den give det korrekte svar på et matematisk problem i base-10 og den sjældent anvendte base-9, for eksempel.

Her er et kig på eksempler på opgaverne og GPT-4's præstation.

GPT-4's præstation med standardopgaver (blå) og let ændrede kontrafaktiske opgaver (orange). Eksempler på opgaverne og de korrekte svar er vist her. Kilde: arXiv

GPT-4's præstation i standardtests (blå linje) er god, men dens evner inden for matematik, logisk tænkning, rumlig tænkning og andre evner (orange linje) forringes betydeligt, når opgaven ændres en smule.

De andre modeller viste en lignende nedbrydning med GPT-4 som den bedste.

På trods af forringelsen var præstationen på kontrafaktiske opgaver stadig bedre end tilfældigt. AI-modellerne forsøger at ræsonnere sig igennem disse opgaver, men er ikke særlig gode til det.

Resultaterne viser, at AI-modellernes imponerende præstationer i opgaver som collegeeksamener er afhængige af fremragende genkaldelse af træningsdata, ikke af ræsonnement. Dette understreger yderligere, at AI-modeller ikke kan generaliseres til usete opgaver,

Zhaofeng Wu, som er ph.d.-studerende i elektroteknik og datalogi ved MIT, tilknyttet CSAIL og hovedforfatter til artiklen, siger: "Vi har afdækket et fascinerende aspekt af store sprogmodeller: De udmærker sig i velkendte scenarier, næsten som en veludnyttet sti, men kæmper, når terrænet bliver uvant. Denne indsigt er afgørende, når vi stræber efter at forbedre disse modellers tilpasningsevne og udvide deres anvendelseshorisonter."

Vi så en lignende demonstration af denne manglende evne til at generalisere, da vi undersøgte, hvor dårlige AI-modeller er til at løse et forenklet puslespil om at krydse en flod.

Forskerne konkluderede, at når udviklere analyserer deres modeller, bør de "betragte abstrakt opgaveevne som løsrevet fra observeret opgaveudførelse."

"Train-to-test"-tilgangen kan flytte en model op i benchmarks, men giver ikke et reelt mål for, hvordan modellen vil klare sig, når den præsenteres for en ny opgave, der skal gennemtænkes.

Forskerne mener, at en del af problemet er, at disse modeller kun er trænet på tekst i overfladeform.

Hvis LLM'er udsættes for mere kontekstualiserede data og semantisk repræsentation fra den virkelige verden, kan de måske generalisere, når de præsenteres for opgavevariationer.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser