O ChatGPT provou o seu desempenho multidisciplinar nos últimos tempos, mas as competências matemáticas continuam a ser o seu calcanhar de Aquiles.
O modelo GPT-4 venceu os exames da faculdade de medicina, o exame da ordem dos advogados e até enfrentou um teste de MBA da Wharton School da Universidade da Pensilvânia. O desempenho no exame da Ordem dos Advogados (um exame jurídico nos EUA) atingiu o percentil 90.
Um grande estudo descobriram que o ChatGPT venceu os humanos em nove de 32 assuntos. Admirável, mas de forma alguma mundial.
A estudo recente liderado por David Wood, professor de Contabilidade na Universidade Brigham Young, questionou as competências do modelo no domínio da contabilidade e revelou uma gritante falta de desempenho.
Para muitos, isto parece contra-intuitivo. A IA - um sistema matemático - é certamente excelente em problemas matemáticos?
Atualmente, não é esse o caso. Vários utilizadores relataram que os modelos de linguagem de grande dimensão (LLMs) têm dificuldades com funções matemáticas básicas. Os problemas de lógica também sofrem - os quebra-cabeças apanham facilmente o ChatGPT, uma vez que o modelo não consegue determinar sistematicamente a resposta correcta.
O Professor Wood adoptou uma abordagem única para o estudo, contactando investigadores nas redes sociais para obter a sua participação. A resposta foi esmagadora, com a participação de 327 co-autores de 186 instituições de ensino de 14 países. Todos eles estão listados como autores do estudo.
![Autores de IA](https://dailyai.com/wp-content/uploads/2023/10/authors-836x1024.png)
Esta abordagem produziu um número impressionante de mais de 27 000 perguntas de exames de contabilidade de vários domínios e níveis de dificuldade que foram colocadas ao ChatGPT.
Apesar da variedade de tipos de perguntas, abrangendo tópicos desde a contabilidade financeira à auditoria e da contabilidade de gestão à fiscalidade, os resultados foram inequívocos. O ChatGPT obteve uma pontuação de 47,4% - consideravelmente inferior à pontuação média de 76,7% obtida pelos estudantes humanos.
A IA demonstrou alguma competência em matéria de auditoria, mas sofreu ao lidar com desafios de contabilidade fiscal, financeira e de gestão.
Para combater as suas fracas capacidades matemáticas, LLMs como o Google Bard mapear questões de tipo matemático para código executável e processá-lo numericamente e não como linguagem, mas isto também não é totalmente fiável.
Nas palavras do Professor Wood, "quando esta tecnologia foi lançada, toda a gente estava preocupada com o facto de os alunos poderem agora utilizá-la para fazer batota", comentou.
"Mas as oportunidades de fazer batota sempre existiram. Por isso, para nós, estamos a tentar concentrar-nos no que podemos fazer agora com esta tecnologia que não podíamos fazer antes para melhorar o processo de ensino para os professores e o processo de aprendizagem para os alunos. O teste foi muito esclarecedor".
Por isso, da próxima vez que estiver a fazer contas às suas finanças ou a calcular os impostos a pagar, talvez seja melhor usar uma calculadora em vez de confiar no ChatGPT.