ChatGPT heeft de afgelopen tijd bewezen multidisciplinair te kunnen werken, maar wiskundevaardigheden blijven de achilleshiel.
Het GPT-4 model heeft examens van de medische faculteit overwonnen, het advocatuurexamen en zelfs een MBA-test van de Wharton School van de Universiteit van Pennsylvania. De prestaties bij het bar-examen (een juridisch examen in de VS) bereikten het 90e percentiel.
Een grote studie ontdekte dat ChatGPT mensen versloeg bij negen van de 32 proefpersonen. Bewonderenswaardig, maar zeker niet werelds.
A recente studie onder leiding van David Wood, hoogleraar boekhouding aan de Brigham Young University, onderzocht de vaardigheden van het model op het gebied van boekhouding en onthulde een opvallend gebrek aan prestaties.
Voor velen lijkt dit contra-intuïtief. AI - een wiskundig systeem - blinkt toch zeker uit in wiskundige problemen?
Momenteel is dit niet het geval. Veel gebruikers hebben gemeld dat grote taalmodellen (LLM's) moeite hebben met wiskundige basisfuncties. Logische problemen lijden er ook onder - hersenkrakers halen ChatGPT er gemakkelijk uit omdat het model niet systematisch het juiste antwoord kan bepalen.
Professor Wood koos voor een unieke aanpak van het onderzoek door onderzoekers via sociale media te benaderen om betrokkenheid te crowdsourcen. De respons was overweldigend, met 327 coauteurs van 186 onderwijsinstellingen in 14 landen die deelnamen. Ze staan allemaal vermeld als auteurs van het onderzoek.
Deze aanpak leverde maar liefst 27.000 boekhoudkundige examenvragen op uit verschillende domeinen en moeilijkheidsgraden die aan ChatGPT werden gesteld.
Ondanks de verscheidenheid aan vraagtypen, die onderwerpen omvatten van financiële boekhouding tot controle en van managementboekhouding tot belastingen, waren de resultaten eenduidig. ChatGPT scoorde 47,4% - aanzienlijk lager dan de 76,7% gemiddelde score behaald door menselijke studenten.
De AI toonde enige competentie op het gebied van auditing, maar leed onder de uitdagingen op het gebied van belastingen, financiën en managementaccounting.
Om hun slechte rekenvaardigheden te bestrijden, LLM's zoals Google Bard wiskundige vragen in kaart brengen in uitvoerbare code en deze numeriek verwerken in plaats van als taal, maar dit is ook niet geheel betrouwbaar.
In de woorden van professor Wood: "Toen deze technologie voor het eerst uitkwam, was iedereen bezorgd dat studenten het nu konden gebruiken om vals te spelen.
"Maar mogelijkheden om vals te spelen hebben altijd bestaan. Dus voor ons proberen we ons te richten op wat we nu met deze technologie kunnen doen dat we eerder niet konden doen om het onderwijsproces voor docenten en het leerproces voor studenten te verbeteren. Het uitproberen ervan was een openbaring."
Dus gebruik de volgende keer dat je je financiën optelt of uitrekent hoeveel belasting je moet betalen liever een rekenmachine dan dat je vertrouwt op ChatGPT.