As competências contabilísticas do ChatGPT são postas à prova

O ChatGPT provou o seu desempenho multidisciplinar nos últimos tempos, mas as competências matemáticas continuam a ser o seu calcanhar de Aquiles.

O modelo GPT-4 venceu os exames da faculdade de medicina, o exame da ordem dos advogados e até enfrentou um teste de MBA da Wharton School da Universidade da Pensilvânia. O desempenho no exame da Ordem dos Advogados (um exame jurídico nos EUA) atingiu o percentil 90.

Um grande estudo descobriram que o ChatGPT venceu os humanos em nove de 32 assuntos. Admirável, mas de forma alguma mundial.

A estudo recente liderado por David Wood, professor de Contabilidade na Universidade Brigham Young, questionou as competências do modelo no domínio da contabilidade e revelou uma gritante falta de desempenho.

Para muitos, isto parece contra-intuitivo. A IA - um sistema matemático - é certamente excelente em problemas matemáticos?

Atualmente, não é esse o caso. Vários utilizadores relataram que os modelos de linguagem de grande dimensão (LLMs) têm dificuldades com funções matemáticas básicas. Os problemas de lógica também sofrem - os quebra-cabeças apanham facilmente o ChatGPT, uma vez que o modelo não consegue determinar sistematicamente a resposta correcta.

O Professor Wood adoptou uma abordagem única para o estudo, contactando investigadores nas redes sociais para obter a sua participação. A resposta foi esmagadora, com a participação de 327 co-autores de 186 instituições de ensino de 14 países. Todos eles estão listados como autores do estudo.

Autores de IA — Possivelmente o maior número de autores de sempre num estudo revisto por pares? Fonte: Associação Americana de Contabilidade.

Esta abordagem produziu um número impressionante de mais de 27 000 perguntas de exames de contabilidade de vários domínios e níveis de dificuldade que foram colocadas ao ChatGPT.

Apesar da variedade de tipos de perguntas, abrangendo tópicos desde a contabilidade financeira à auditoria e da contabilidade de gestão à fiscalidade, os resultados foram inequívocos. O ChatGPT obteve uma pontuação de 47,4% - consideravelmente inferior à pontuação média de 76,7% obtida pelos estudantes humanos.

A IA demonstrou alguma competência em matéria de auditoria, mas sofreu ao lidar com desafios de contabilidade fiscal, financeira e de gestão.

Para combater as suas fracas capacidades matemáticas, LLMs como o Google Bard mapear questões de tipo matemático para código executável e processá-lo numericamente e não como linguagem, mas isto também não é totalmente fiável.

Nas palavras do Professor Wood, "quando esta tecnologia foi lançada, toda a gente estava preocupada com o facto de os alunos poderem agora utilizá-la para fazer batota", comentou.

"Mas as oportunidades de fazer batota sempre existiram. Por isso, para nós, estamos a tentar concentrar-nos no que podemos fazer agora com esta tecnologia que não podíamos fazer antes para melhorar o processo de ensino para os professores e o processo de aprendizagem para os alunos. O teste foi muito esclarecedor".

Por isso, da próxima vez que estiver a fazer contas às suas finanças ou a calcular os impostos a pagar, talvez seja melhor usar uma calculadora em vez de confiar no ChatGPT.

Os conhecimentos de contabilidade da ChatGPT são postos à prova

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

Novo sistema de IA identifica com êxito a doença de Alzheimer através da análise do discurso

Os campos de batalha modernos tornaram-se um terreno fértil para o armamento experimental de IA

A IA desvenda a evolução das borboletas com asas de pássaro, lançando luz sobre debates evolutivos

A ElevenLabs faz acordos para utilizar vozes de celebridades famosas já falecidas