In een recente analyse heeft ChatGPT nog niet bewezen dat hij in staat is om het examen voor chartered financial analyst (CFA) af te leggen.
Een groep onderzoekers van JPMorgan Chase & Co. voerde een experiment uit om te zien of het GPT-4 model van OpenAI de eerste twee niveaus van het CFA-examen zou kunnen halen. Dit uitdagende examen kost mensen meestal vier jaar.
"Op basis van geschatte slagingspercentages en gemiddelde zelfgerapporteerde scores concludeerden we dat ChatGPT waarschijnlijk niet in staat zou zijn om te slagen voor de CFA Level I en Level II in alle geteste settings", aldus de onderzoekers in hun verslag.
GPT-4 had echter een betere kans en de onderzoekers stelden: "GPT-4 zou een behoorlijke kans hebben om te slagen voor de CFA Level I en II als het op de juiste manier wordt gevraagd."
De onderzoekers, waaronder leden van JPMorgan's AI Research unit Sameena Shah en Antony Papadimitriou, benadrukten ook de voortdurende inspanningen van het CFA Institute om AI en big data-analyse te integreren in zijn examens sinds 2017.
Chris Wiese, de Education Managing Director van het CFA Institute, erkent dat grote taalmodellen (LLM's) zoals GPT-4 weliswaar bepaalde examenvragen correct kunnen beantwoorden, maar dat het pad om CFA-gecertificeerd te worden ook aanzienlijke praktijkervaring, referenties, ethische normen en binnenkort ook praktische vaardigheidsmodules vereist.
Onlangs daalde het slagingspercentage voor niveau I naar 37% in augustus, terwijl het gemiddelde in 2018 al laag lag op 43%.
Uit het onderzoek bleek dat beide AI-modellen meer uitdagingen hadden met niveau II, ongeacht de gebruikte promptingmethoden.
Ze toonden zich echter vaardig in derivaten, alternatieve beleggingen, bedrijfsvraagstukken, aandelenbeleggingen en ethische secties van niveau I. Hun prestaties waren minder indrukwekkend op gebieden als financiële verslaggeving en portefeuillebeheer.
Voor niveau II had ChatGPT moeite met alternatieve beleggingen en vastrentende waarden, terwijl GPT-4 meer moeite had met portefeuillebeheer en economie.
De meeste fouten van ChatGPT waren gebaseerd op kennis, terwijl die van GPT-4 voornamelijk reken- en redeneerfouten waren, waarbij de laatste soms tot onjuiste conclusies leidden door gebrekkige logica.
Dit volgt op een vergelijkbaar recent onderzoek dat ChatGPT's beperkingen in boekhoudkundige examens. Het is tenslotte een taalmodel.