Negli ultimi tempi il ChatGPT ha dimostrato di essere multidisciplinare, ma le competenze matematiche restano il suo tallone d'Achille.
Il modello GPT-4 ha superato gli esami della scuola di medicina, l'esame di abilitazione all'esercizio della professione forense e ha persino affrontato un test MBA della Wharton School dell'Università della Pennsylvania. Le prestazioni all'esame di stato (un esame legale negli Stati Uniti) hanno raggiunto il 90° percentile.
Uno studio di grandi dimensioni ha scoperto che il ChatGPT ha battuto gli esseri umani in nove dei 32 soggetti. Ammirevole, ma non certo da primato.
A studio recente guidato da David Wood, professore di contabilità presso la Brigham Young University, ha messo alla prova le capacità del modello nel campo della contabilità e ha rivelato un'evidente mancanza di prestazioni.
Per molti, questo sembra controintuitivo. Sicuramente l'IA - un sistema matematico - eccelle nei problemi matematici?
Attualmente non è così. Numerosi utenti hanno segnalato che i modelli linguistici di grandi dimensioni (LLM) hanno difficoltà con le funzioni matematiche di base. Anche i problemi di logica ne risentono: i rompicapo mettono facilmente in crisi ChatGPT perché il modello non è in grado di determinare sistematicamente la risposta corretta.
Il professor Wood ha adottato un approccio unico allo studio, contattando i ricercatori sui social media per ottenere il coinvolgimento di tutti. La risposta è stata travolgente, con la partecipazione di 327 coautori provenienti da 186 istituti di istruzione di 14 Paesi. Sono tutti elencati come autori dello studio.
Questo approccio ha prodotto ben 27.000 domande di esame di contabilità di vari ambiti e livelli di difficoltà che sono state poste a ChatGPT.
Nonostante la varietà dei tipi di domande, che coprono argomenti che vanno dalla contabilità finanziaria alla revisione contabile, dalla contabilità manageriale alla fiscalità, i risultati sono stati inequivocabili. Il ChatGPT ha ottenuto un punteggio di 47,4%, notevolmente inferiore al punteggio medio di 76,7% ottenuto dagli studenti umani.
L'IA ha dimostrato una certa competenza nella revisione contabile, ma ha sofferto quando ha affrontato le sfide della contabilità fiscale, finanziaria e gestionale.
Per combattere le loro scarse capacità matematiche, Gli LLM come Google Bard mappare le domande di tipo matematico in codice eseguibile ed elaborarlo numericamente piuttosto che come linguaggio, ma anche questo non è del tutto affidabile.
Quando questa tecnologia è stata introdotta, tutti erano preoccupati che gli studenti potessero usarla per imbrogliare", ha commentato il professor Wood.
"Ma le opportunità di imbrogliare sono sempre esistite. Quindi, per noi, stiamo cercando di concentrarci su ciò che possiamo fare con questa tecnologia ora che non potevamo fare prima per migliorare il processo di insegnamento per i docenti e il processo di apprendimento per gli studenti. La prova è stata illuminante".
Quindi, la prossima volta che dovete fare i conti o calcolare le tasse da pagare, non affidatevi a ChatGPT, ma a una calcolatrice.