ChatGPT's regnskabsfærdigheder bliver sat på prøve

30. oktober 2023

AI-regnskab

ChatGPT har bevist sin tværfaglige performance i den seneste tid, men matematiske færdigheder er stadig dens akilleshæl. 

GPT-4-modellen har overvundet eksamener på medicinstudiet, advokateksamen og endda klaret en MBA-test fra Wharton School på University of Pennsylvania. Præstationen i advokateksamen (en juridisk eksamen i USA) nåede op på den 90. percentil. 

En stort studie fandt, at ChatGPT slog mennesker i ni ud af 32 forsøg. Beundringsværdigt, men på ingen måde verdensførende. 

A nylig undersøgelse under ledelse af David Wood, professor i regnskabsvæsen ved Brigham Young University, satte spørgsmålstegn ved modellens evner inden for regnskabsvæsen og afslørede en åbenlys mangel på resultater. 

For mange virker det kontraintuitivt. AI - et matematisk system - er vel fremragende til matematiske problemer? 

Det er ikke tilfældet i øjeblikket. Mange brugere har rapporteret, at store sprogmodeller (LLM'er) kæmper med grundlæggende matematiske funktioner. Logiske problemer lider også - hjernevridere fanger let ChatGPT, da modellen ikke systematisk kan afgøre det korrekte svar. 

Professor Wood tog en unik tilgang til undersøgelsen og kontaktede forskere på de sociale medier for at crowdsource deltagelse. Responsen var overvældende, og 327 medforfattere fra 186 uddannelsesinstitutioner i 14 lande deltog. De er alle opført som studiets forfattere. 

AI-forfattere
Muligvis de fleste forfattere, der nogensinde er anført for en peer-reviewed undersøgelse? Kilde: Den amerikanske revisorforening.

Denne tilgang resulterede i svimlende 27.000 regnskabseksamensspørgsmål fra forskellige områder og sværhedsgrader, som blev stillet til ChatGPT.

På trods af de mange forskellige spørgsmålstyper, der dækkede emner fra finansregnskab til revision og ledelsesregnskab til skat, var resultaterne utvetydige. ChatGPT scorede 47,4% - betydeligt lavere end den gennemsnitlige score på 76,7%, der blev opnået af menneskelige studerende. 

AI'en udviste en vis kompetence inden for revision, men led, når den skulle håndtere udfordringer inden for skat, finans og ledelsesregnskab.

For at bekæmpe deres dårlige matematikfærdigheder, LLM'er som Google Bard kortlægge matematiske spørgsmål til eksekverbar kode og behandle den numerisk i stedet for som sprog, men det er heller ikke helt pålideligt. 

Med professor Woods ord: "Da denne teknologi først kom frem, var alle bekymrede for, at de studerende nu kunne bruge den til at snyde," siger han. 

"Men mulighederne for at snyde har altid eksisteret. Så for os prøver vi at fokusere på, hvad vi kan gøre med denne teknologi nu, som vi ikke kunne gøre før, for at forbedre undervisningsprocessen for lærerne og læringsprocessen for de studerende. At teste det var en øjenåbner."

Så måske skal du holde dig til en lommeregner, næste gang du skal gøre din økonomi op eller finde ud af, hvilken skat du skal betale, i stedet for at stole på ChatGPT.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser