ChatGPTs regnskapskunnskaper settes på prøve

30. oktober 2023

AI-regnskap

ChatGPT har bevist sin tverrfaglige kapasitet i nyere tid, men matematikkferdighetene er fortsatt akilleshælen. 

GPT-4-modellen har bestått eksamener på medisinstudiet, juristeksamen og til og med en MBA-test fra Wharton School ved University of Pennsylvania. Resultatene på advokateksamen (en juridisk eksamen i USA) nådde 90. persentil. 

En stor studie fant at ChatGPT slo mennesker i ni av 32 forsøk. Beundringsverdig, men på ingen måte verdensledende. 

A fersk undersøkelse ledet av David Wood, professor i regnskap ved Brigham Young University, stilte spørsmål ved modellens ferdigheter på regnskapsområdet og avslørte en skrikende mangel på ytelse. 

For mange virker dette kontraintuitivt. AI - et matematisk system - er vel utmerket til å løse matematiske problemer? 

Slik er det ikke i dag. Mange brukere har rapportert at store språkmodeller (LLM-er) sliter med grunnleggende matematiske funksjoner. Logiske problemer lider også under dette - ChatGPT blir lett tatt på senga når modellen ikke systematisk kan finne det riktige svaret. 

Professor Wood tok en unik tilnærming til studien ved å kontakte forskere på sosiale medier for å få dem til å delta. Responsen var overveldende, og 327 medforfattere fra 186 utdanningsinstitusjoner i 14 land deltok. De er alle oppført som forfattere av studien. 

AI-forfattere
Muligens det største antallet forfattere som noensinne er oppført for en fagfellevurdert studie? Kilde: American Accounting Association.

Denne tilnærmingen resulterte i over 27 000 regnskapseksamensspørsmål fra ulike domener og vanskelighetsgrader som ble stilt til ChatGPT.

Til tross for variasjonen i oppgavetyper, som dekket emner fra finansregnskap til revisjon og ledelsesregnskap til skatt, var resultatene utvetydige. ChatGPT oppnådde 47,4% - betydelig lavere enn gjennomsnittsscoren på 76,7% som ble oppnådd av menneskelige studenter. 

AI viste en viss kompetanse innen revisjon, men led under utfordringer knyttet til skatt, finans og ledelsesregnskap.

For å bekjempe deres dårlige matteferdigheter, LLM-er som Google Bard kartlegge matematiske spørsmål til kjørbar kode og behandle den numerisk i stedet for som språk, men heller ikke dette er helt pålitelig. 

"Da denne teknologien først kom på markedet, var alle bekymret for at studentene nå kunne bruke den til å jukse", sier professor Wood. 

"Men mulighetene til å jukse har alltid eksistert. Så for oss prøver vi å fokusere på hva vi kan gjøre med denne teknologien nå, som vi ikke kunne gjøre før, for å forbedre undervisningsprosessen for fakultetet og læringsprosessen for studentene. Det var en øyeåpner å teste det ut."

Så kanskje du bør holde deg til en kalkulator neste gang du skal gjøre opp økonomien eller regne ut skatten du skal betale, i stedet for å stole på ChatGPT.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser