De boekhoudkundige vaardigheden van ChatGPT worden op de proef gesteld

30 oktober 2023

AI-boekhouding

ChatGPT heeft de afgelopen tijd bewezen multidisciplinair te kunnen werken, maar wiskundevaardigheden blijven de achilleshiel. 

Het GPT-4 model heeft examens van de medische faculteit overwonnen, het advocatuurexamen en zelfs een MBA-test van de Wharton School van de Universiteit van Pennsylvania. De prestaties bij het bar-examen (een juridisch examen in de VS) bereikten het 90e percentiel. 

Een grote studie ontdekte dat ChatGPT mensen versloeg bij negen van de 32 proefpersonen. Bewonderenswaardig, maar zeker niet werelds. 

A recente studie onder leiding van David Wood, hoogleraar boekhouding aan de Brigham Young University, onderzocht de vaardigheden van het model op het gebied van boekhouding en onthulde een opvallend gebrek aan prestaties. 

Voor velen lijkt dit contra-intuïtief. AI - een wiskundig systeem - blinkt toch zeker uit in wiskundige problemen? 

Momenteel is dit niet het geval. Veel gebruikers hebben gemeld dat grote taalmodellen (LLM's) moeite hebben met wiskundige basisfuncties. Logische problemen lijden er ook onder - hersenkrakers halen ChatGPT er gemakkelijk uit omdat het model niet systematisch het juiste antwoord kan bepalen. 

Professor Wood koos voor een unieke aanpak van het onderzoek door onderzoekers via sociale media te benaderen om betrokkenheid te crowdsourcen. De respons was overweldigend, met 327 coauteurs van 186 onderwijsinstellingen in 14 landen die deelnamen. Ze staan allemaal vermeld als auteurs van het onderzoek. 

AI-auteurs
Mogelijk de meeste auteurs ooit in een peer-reviewed onderzoek? Bron: Amerikaanse boekhoudvereniging.

Deze aanpak leverde maar liefst 27.000 boekhoudkundige examenvragen op uit verschillende domeinen en moeilijkheidsgraden die aan ChatGPT werden gesteld.

Ondanks de verscheidenheid aan vraagtypen, die onderwerpen omvatten van financiële boekhouding tot controle en van managementboekhouding tot belastingen, waren de resultaten eenduidig. ChatGPT scoorde 47,4% - aanzienlijk lager dan de 76,7% gemiddelde score behaald door menselijke studenten. 

De AI toonde enige competentie op het gebied van auditing, maar leed onder de uitdagingen op het gebied van belastingen, financiën en managementaccounting.

Om hun slechte rekenvaardigheden te bestrijden, LLM's zoals Google Bard wiskundige vragen in kaart brengen in uitvoerbare code en deze numeriek verwerken in plaats van als taal, maar dit is ook niet geheel betrouwbaar. 

In de woorden van professor Wood: "Toen deze technologie voor het eerst uitkwam, was iedereen bezorgd dat studenten het nu konden gebruiken om vals te spelen. 

"Maar mogelijkheden om vals te spelen hebben altijd bestaan. Dus voor ons proberen we ons te richten op wat we nu met deze technologie kunnen doen dat we eerder niet konden doen om het onderwijsproces voor docenten en het leerproces voor studenten te verbeteren. Het uitproberen ervan was een openbaring."

Dus gebruik de volgende keer dat je je financiën optelt of uitrekent hoeveel belasting je moet betalen liever een rekenmachine dan dat je vertrouwt op ChatGPT.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden