ChatGPT har bevist sin tværfaglige performance i den seneste tid, men matematiske færdigheder er stadig dens akilleshæl.
GPT-4-modellen har overvundet eksamener på medicinstudiet, advokateksamen og endda klaret en MBA-test fra Wharton School på University of Pennsylvania. Præstationen i advokateksamen (en juridisk eksamen i USA) nåede op på den 90. percentil.
En stort studie fandt, at ChatGPT slog mennesker i ni ud af 32 forsøg. Beundringsværdigt, men på ingen måde verdensførende.
A nylig undersøgelse under ledelse af David Wood, professor i regnskabsvæsen ved Brigham Young University, satte spørgsmålstegn ved modellens evner inden for regnskabsvæsen og afslørede en åbenlys mangel på resultater.
For mange virker det kontraintuitivt. AI - et matematisk system - er vel fremragende til matematiske problemer?
Det er ikke tilfældet i øjeblikket. Mange brugere har rapporteret, at store sprogmodeller (LLM'er) kæmper med grundlæggende matematiske funktioner. Logiske problemer lider også - hjernevridere fanger let ChatGPT, da modellen ikke systematisk kan afgøre det korrekte svar.
Professor Wood tog en unik tilgang til undersøgelsen og kontaktede forskere på de sociale medier for at crowdsource deltagelse. Responsen var overvældende, og 327 medforfattere fra 186 uddannelsesinstitutioner i 14 lande deltog. De er alle opført som studiets forfattere.
Denne tilgang resulterede i svimlende 27.000 regnskabseksamensspørgsmål fra forskellige områder og sværhedsgrader, som blev stillet til ChatGPT.
På trods af de mange forskellige spørgsmålstyper, der dækkede emner fra finansregnskab til revision og ledelsesregnskab til skat, var resultaterne utvetydige. ChatGPT scorede 47,4% - betydeligt lavere end den gennemsnitlige score på 76,7%, der blev opnået af menneskelige studerende.
AI'en udviste en vis kompetence inden for revision, men led, når den skulle håndtere udfordringer inden for skat, finans og ledelsesregnskab.
For at bekæmpe deres dårlige matematikfærdigheder, LLM'er som Google Bard kortlægge matematiske spørgsmål til eksekverbar kode og behandle den numerisk i stedet for som sprog, men det er heller ikke helt pålideligt.
Med professor Woods ord: "Da denne teknologi først kom frem, var alle bekymrede for, at de studerende nu kunne bruge den til at snyde," siger han.
"Men mulighederne for at snyde har altid eksisteret. Så for os prøver vi at fokusere på, hvad vi kan gøre med denne teknologi nu, som vi ikke kunne gøre før, for at forbedre undervisningsprocessen for lærerne og læringsprocessen for de studerende. At teste det var en øjenåbner."
Så måske skal du holde dig til en lommeregner, næste gang du skal gøre din økonomi op eller finde ud af, hvilken skat du skal betale, i stedet for at stole på ChatGPT.