ChatGPT har bevist sin tverrfaglige kapasitet i nyere tid, men matematikkferdighetene er fortsatt akilleshælen.
GPT-4-modellen har bestått eksamener på medisinstudiet, juristeksamen og til og med en MBA-test fra Wharton School ved University of Pennsylvania. Resultatene på advokateksamen (en juridisk eksamen i USA) nådde 90. persentil.
En stor studie fant at ChatGPT slo mennesker i ni av 32 forsøk. Beundringsverdig, men på ingen måte verdensledende.
A fersk undersøkelse ledet av David Wood, professor i regnskap ved Brigham Young University, stilte spørsmål ved modellens ferdigheter på regnskapsområdet og avslørte en skrikende mangel på ytelse.
For mange virker dette kontraintuitivt. AI - et matematisk system - er vel utmerket til å løse matematiske problemer?
Slik er det ikke i dag. Mange brukere har rapportert at store språkmodeller (LLM-er) sliter med grunnleggende matematiske funksjoner. Logiske problemer lider også under dette - ChatGPT blir lett tatt på senga når modellen ikke systematisk kan finne det riktige svaret.
Professor Wood tok en unik tilnærming til studien ved å kontakte forskere på sosiale medier for å få dem til å delta. Responsen var overveldende, og 327 medforfattere fra 186 utdanningsinstitusjoner i 14 land deltok. De er alle oppført som forfattere av studien.
Denne tilnærmingen resulterte i over 27 000 regnskapseksamensspørsmål fra ulike domener og vanskelighetsgrader som ble stilt til ChatGPT.
Til tross for variasjonen i oppgavetyper, som dekket emner fra finansregnskap til revisjon og ledelsesregnskap til skatt, var resultatene utvetydige. ChatGPT oppnådde 47,4% - betydelig lavere enn gjennomsnittsscoren på 76,7% som ble oppnådd av menneskelige studenter.
AI viste en viss kompetanse innen revisjon, men led under utfordringer knyttet til skatt, finans og ledelsesregnskap.
For å bekjempe deres dårlige matteferdigheter, LLM-er som Google Bard kartlegge matematiske spørsmål til kjørbar kode og behandle den numerisk i stedet for som språk, men heller ikke dette er helt pålitelig.
"Da denne teknologien først kom på markedet, var alle bekymret for at studentene nå kunne bruke den til å jukse", sier professor Wood.
"Men mulighetene til å jukse har alltid eksistert. Så for oss prøver vi å fokusere på hva vi kan gjøre med denne teknologien nå, som vi ikke kunne gjøre før, for å forbedre undervisningsprosessen for fakultetet og læringsprosessen for studentene. Det var en øyeåpner å teste det ut."
Så kanskje du bør holde deg til en kalkulator neste gang du skal gjøre opp økonomien eller regne ut skatten du skal betale, i stedet for å stole på ChatGPT.