ChatGPTs regnskapskunnskaper settes på prøve

ChatGPT har bevist sin tverrfaglige kapasitet i nyere tid, men matematikkferdighetene er fortsatt akilleshælen.

GPT-4-modellen har bestått eksamener på medisinstudiet, juristeksamen og til og med en MBA-test fra Wharton School ved University of Pennsylvania. Resultatene på advokateksamen (en juridisk eksamen i USA) nådde 90. persentil.

En stor studie fant at ChatGPT slo mennesker i ni av 32 forsøk. Beundringsverdig, men på ingen måte verdensledende.

A fersk undersøkelse ledet av David Wood, professor i regnskap ved Brigham Young University, stilte spørsmål ved modellens ferdigheter på regnskapsområdet og avslørte en skrikende mangel på ytelse.

For mange virker dette kontraintuitivt. AI - et matematisk system - er vel utmerket til å løse matematiske problemer?

Slik er det ikke i dag. Mange brukere har rapportert at store språkmodeller (LLM-er) sliter med grunnleggende matematiske funksjoner. Logiske problemer lider også under dette - ChatGPT blir lett tatt på senga når modellen ikke systematisk kan finne det riktige svaret.

Professor Wood tok en unik tilnærming til studien ved å kontakte forskere på sosiale medier for å få dem til å delta. Responsen var overveldende, og 327 medforfattere fra 186 utdanningsinstitusjoner i 14 land deltok. De er alle oppført som forfattere av studien.

AI-forfattere — Muligens det største antallet forfattere som noensinne er oppført for en fagfellevurdert studie? Kilde: American Accounting Association.

Denne tilnærmingen resulterte i over 27 000 regnskapseksamensspørsmål fra ulike domener og vanskelighetsgrader som ble stilt til ChatGPT.

Til tross for variasjonen i oppgavetyper, som dekket emner fra finansregnskap til revisjon og ledelsesregnskap til skatt, var resultatene utvetydige. ChatGPT oppnådde 47,4% - betydelig lavere enn gjennomsnittsscoren på 76,7% som ble oppnådd av menneskelige studenter.

AI viste en viss kompetanse innen revisjon, men led under utfordringer knyttet til skatt, finans og ledelsesregnskap.

For å bekjempe deres dårlige matteferdigheter, LLM-er som Google Bard kartlegge matematiske spørsmål til kjørbar kode og behandle den numerisk i stedet for som språk, men heller ikke dette er helt pålitelig.

"Da denne teknologien først kom på markedet, var alle bekymret for at studentene nå kunne bruke den til å jukse", sier professor Wood.

"Men mulighetene til å jukse har alltid eksistert. Så for oss prøver vi å fokusere på hva vi kan gjøre med denne teknologien nå, som vi ikke kunne gjøre før, for å forbedre undervisningsprosessen for fakultetet og læringsprosessen for studentene. Det var en øyeåpner å teste det ut."

Så kanskje du bør holde deg til en kalkulator neste gang du skal gjøre opp økonomien eller regne ut skatten du skal betale, i stedet for å stole på ChatGPT.

ChatGPTs regnskapskunnskaper settes på prøve

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT

ChatGPTs regnskapskunnskaper settes på prøve

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI