ChatGPT har på senare tid visat prov på sin tvärvetenskapliga förmåga, men mattekunskaperna är fortfarande dess akilleshäl.
GPT-4-modellen har klarat läkarutbildningen, juristutbildningens advokatexamen och till och med ett MBA-prov från Wharton School vid University of Pennsylvania. Prestationen i bar exam (en juridisk examen i USA) nådde 90:e percentilen.
En stor studie fann att ChatGPT slog människor i nio av 32 försökspersoner. Beundransvärt men inte på något sätt världsledande.
A nyligen genomförd studie under ledning av David Wood, professor i redovisning vid Brigham Young University, ifrågasatte modellens kompetens inom redovisningsområdet och avslöjade en uppenbar brist på prestanda.
För många verkar detta kontraintuitivt. AI - ett matematiskt system - måste väl ändå vara bra på matematiska problem?
För närvarande är detta inte fallet. Många användare har rapporterat att stora språkmodeller (LLM) kämpar med grundläggande matematiska funktioner. Logiska problem drabbas också - hjärnspöken fångar lätt ChatGPT eftersom modellen inte systematiskt kan avgöra det rätta svaret.
Professor Wood tog ett unikt grepp om studien och kontaktade forskare på sociala medier för att få dem att delta. Responsen var överväldigande, och 327 medförfattare från 186 utbildningsinstitutioner i 14 länder deltog. De är alla listade som författare till studien.
Detta tillvägagångssätt resulterade i över 27 000 redovisningsfrågor från olika områden och svårighetsgrader som ställdes till ChatGPT.
Trots variationen i frågetyper, som täckte ämnen från finansiell redovisning till revision och företagsredovisning till skatt, var resultaten entydiga. ChatGPT fick 47,4% - betydligt lägre än det genomsnittliga resultatet på 76,7% som uppnåddes av mänskliga studenter.
AI:n uppvisade viss kompetens inom revision, men hade svårt att hantera utmaningar inom skatt, finans och redovisning.
För att bekämpa deras dåliga mattekunskaper, LLM som Google Bard kartlägga matematiska frågor till exekverbar kod och bearbeta den numeriskt snarare än som språk, men inte heller detta är helt tillförlitligt.
"När den här tekniken först kom ut var alla oroliga för att studenterna nu skulle kunna använda den för att fuska", säger professor Wood.
"Men det har alltid funnits möjligheter att fuska. Så vi försöker fokusera på vad vi kan göra med den här tekniken nu som vi inte kunde göra tidigare för att förbättra undervisningsprocessen för lärarna och inlärningsprocessen för studenterna. Att testa det var en ögonöppnare."
Så håll dig kanske till en kalkylator nästa gång du räknar ut din ekonomi eller räknar ut vilken skatt du ska betala i stället för att förlita dig på ChatGPT.