O ChatGPT provou o seu desempenho multidisciplinar nos últimos tempos, mas as competências matemáticas continuam a ser o seu calcanhar de Aquiles.
O modelo GPT-4 venceu os exames da faculdade de medicina, o exame da ordem dos advogados e até enfrentou um teste de MBA da Wharton School da Universidade da Pensilvânia. O desempenho no exame da Ordem dos Advogados (um exame jurídico nos EUA) atingiu o percentil 90.
Um grande estudo descobriram que o ChatGPT venceu os humanos em nove de 32 assuntos. Admirável, mas de forma alguma mundial.
A estudo recente liderado por David Wood, professor de Contabilidade na Universidade Brigham Young, questionou as competências do modelo no domínio da contabilidade e revelou uma gritante falta de desempenho.
Para muitos, isto parece contra-intuitivo. A IA - um sistema matemático - é certamente excelente em problemas matemáticos?
Atualmente, não é esse o caso. Vários utilizadores relataram que os modelos de linguagem de grande dimensão (LLMs) têm dificuldades com funções matemáticas básicas. Os problemas de lógica também sofrem - os quebra-cabeças apanham facilmente o ChatGPT, uma vez que o modelo não consegue determinar sistematicamente a resposta correcta.
O Professor Wood adoptou uma abordagem única para o estudo, contactando investigadores nas redes sociais para obter a sua participação. A resposta foi esmagadora, com a participação de 327 co-autores de 186 instituições de ensino de 14 países. Todos eles estão listados como autores do estudo.
Esta abordagem produziu um número impressionante de mais de 27 000 perguntas de exames de contabilidade de vários domínios e níveis de dificuldade que foram colocadas ao ChatGPT.
Apesar da variedade de tipos de perguntas, abrangendo tópicos desde a contabilidade financeira à auditoria e da contabilidade de gestão à fiscalidade, os resultados foram inequívocos. O ChatGPT obteve uma pontuação de 47,4% - consideravelmente inferior à pontuação média de 76,7% obtida pelos estudantes humanos.
A IA demonstrou alguma competência em matéria de auditoria, mas sofreu ao lidar com desafios de contabilidade fiscal, financeira e de gestão.
Para combater as suas fracas capacidades matemáticas, LLMs como o Google Bard mapear questões de tipo matemático para código executável e processá-lo numericamente e não como linguagem, mas isto também não é totalmente fiável.
Nas palavras do Professor Wood, "quando esta tecnologia foi lançada, toda a gente estava preocupada com o facto de os alunos poderem agora utilizá-la para fazer batota", comentou.
"Mas as oportunidades de fazer batota sempre existiram. Por isso, para nós, estamos a tentar concentrar-nos no que podemos fazer agora com esta tecnologia que não podíamos fazer antes para melhorar o processo de ensino para os professores e o processo de aprendizagem para os alunos. O teste foi muito esclarecedor".
Por isso, da próxima vez que estiver a fazer contas às suas finanças ou a calcular os impostos a pagar, talvez seja melhor usar uma calculadora em vez de confiar no ChatGPT.