ChatGPT ha demostrado su rendimiento multidisciplinar en los últimos tiempos, pero las habilidades matemáticas siguen siendo su talón de Aquiles.
El modelo GPT-4 ha conquistado los exámenes de las facultades de medicina, el examen de acceso a la abogacía e incluso se ha enfrentado a un examen de MBA de la Wharton School de la Universidad de Pensilvania. El rendimiento en el examen del colegio de abogados (un examen jurídico en EE.UU.) alcanzó el percentil 90.
Un amplio estudio descubrió que ChatGPT superaba a los humanos en nueve de 32 sujetos. Admirable, pero en ningún caso imbatible.
A estudio reciente dirigido por David Wood, catedrático de Contabilidad de la Universidad Brigham Young, puso a prueba la destreza del modelo en el campo de la contabilidad y reveló una flagrante falta de rendimiento.
Para muchos, esto parece contradictorio. Seguro que la IA, un sistema matemático, destaca en problemas matemáticos.
Actualmente, esto no es así. Numerosos usuarios han informado de que los grandes modelos lingüísticos (LLM) tienen dificultades con las funciones matemáticas básicas. Los problemas de lógica también se resienten: los acertijos sorprenden fácilmente a ChatGPT, ya que el modelo no puede determinar sistemáticamente la respuesta correcta.
El profesor Wood adoptó un enfoque único para el estudio: se puso en contacto con investigadores a través de las redes sociales para recabar su participación. La respuesta fue abrumadora: participaron 327 coautores de 186 instituciones educativas de 14 países. Todos ellos figuran como autores del estudio.
Este enfoque produjo la asombrosa cifra de más de 27.000 preguntas de exámenes de contabilidad de diversos ámbitos y niveles de dificultad que se plantearon a ChatGPT.
A pesar de la variedad de tipos de preguntas, que abarcaban temas desde la contabilidad financiera a la auditoría y desde la contabilidad de gestión a los impuestos, los resultados fueron inequívocos. ChatGPT obtuvo una puntuación de 47,4%, considerablemente inferior a la puntuación media de 76,7% obtenida por los estudiantes humanos.
La IA demostró cierta competencia en auditoría, pero sufrió a la hora de enfrentarse a retos fiscales, financieros y de contabilidad de gestión.
Para combatir sus escasas habilidades matemáticas, LLMs como Google Bard trasladar preguntas de tipo matemático a código ejecutable y procesarlo numéricamente en lugar de como lenguaje, pero esto tampoco es del todo fiable.
En palabras del profesor Wood, "cuando apareció esta tecnología, a todo el mundo le preocupaba que los estudiantes pudieran utilizarla para hacer trampas", comentó.
"Pero las oportunidades de hacer trampas siempre han existido. Así que nosotros intentamos centrarnos en lo que podemos hacer ahora con esta tecnología que no podíamos hacer antes para mejorar el proceso de enseñanza para el profesorado y el proceso de aprendizaje para los estudiantes. Probarlo fue revelador".
Así que, la próxima vez que tengas que hacer cuentas o calcular los impuestos que tienes que pagar, mejor utiliza una calculadora que ChatGPT.