En un análisis reciente, ChatGPT aún no ha demostrado ser capaz de aprobar el examen de analista financiero colegiado (CFA).
Un grupo formado por investigadores de JPMorgan Chase & Co. realizó un experimento para comprobar si el modelo GPT-4 de OpenAI podía superar los dos primeros niveles del examen CFA. Este exigente examen suele llevar a los seres humanos cuatro años.
"Basándonos en los porcentajes estimados de aprobados y en las puntuaciones medias autodeclaradas, concluimos que ChatGPT probablemente no sería capaz de aprobar el nivel I y el nivel II de CFA en todos los escenarios evaluados", detallaron los investigadores en su informe.
Sin embargo, el GPT-4 tenía más posibilidades, y los investigadores afirmaron: "El GPT-4 tendría una probabilidad decente de aprobar el CFA de nivel I y II si se le estimula adecuadamente".
Los investigadores, entre los que se encuentran los miembros de la unidad de Investigación de IA de JPMorgan Sameena Shah y Antony Papadimitriou, también destacaron los continuos esfuerzos del CFA Institute por integrar la IA y el análisis de big data en sus exámenes desde 2017.
Chris Wiese, director gerente de educación del CFA Institute, reconoció que, si bien los modelos de gran lenguaje (LLM) como el GPT-4 pueden responder correctamente a ciertas preguntas del examen, el camino para obtener la certificación CFA también requiere una importante experiencia práctica, referencias, normas éticas y, próximamente, módulos de habilidades prácticas.
Recientemente, la tasa de aprobados en el Nivel I descendió a 37% en agosto desde una media ya baja de 43% en 2018.
El estudio reveló que ambos modelos de IA se enfrentaban a más retos con el Nivel II, independientemente de los métodos de incitación utilizados.
Sin embargo, demostraron su competencia en las secciones de derivados, inversiones alternativas, asuntos corporativos, inversiones en renta variable y ética del Nivel I. Su rendimiento fue menos impresionante en áreas como la información financiera y la gestión de carteras.
En el Nivel II, ChatGPT tuvo dificultades con las inversiones alternativas y la renta fija, mientras que GPT-4 tuvo más dificultades con la gestión de carteras y la economía.
La mayoría de los errores de ChatGPT se basaban en el conocimiento, mientras que los de GPT-4 eran predominantemente errores de cálculo y razonamiento, y estos últimos a veces llevaban a conclusiones incorrectas debido a una lógica defectuosa.
Esto sigue a un estudio reciente similar que puso de manifiesto que ChatGPT limitaciones en los exámenes de contabilidad. Al fin y al cabo, se trata de un modelo lingüístico.