Investigadores de la Universidad de Reading (Reino Unido) realizaron un estudio a ciegas para comprobar si los educadores humanos eran capaces de detectar los contenidos generados por IA. Los resultados no auguran nada bueno para los profesores.
La evolución hacia el aprendizaje a distancia ha hecho que muchas evaluaciones de estudiantes se realicen fuera del espacio tradicional de un examen escrito con un vigilante atento a las trampas.
El fácil acceso a modelos avanzados de inteligencia artificial ha facilitado a los estudiantes el uso de herramientas como ChatGPT para que redacten por ellos las tareas de sus cursos o les ayuden a la hora de realizar exámenes en línea.
¿Sería capaz un profesor universitario inteligente de saber si un estudiante está utilizando IA para responder a las preguntas de un examen en línea?
El profesor asociado Peter Scarfe, uno de del periódico autores principales, afirmó: "Muchas instituciones se han alejado de los exámenes tradicionales para que la evaluación sea más integradora. Nuestra investigación demuestra que es de importancia internacional comprender cómo afectará la IA a la integridad de las evaluaciones educativas."
En el "mayor y más sólido estudio ciego de este tipo", los investigadores presentaron 100% AI escritos en el sistema de exámenes de cinco módulos de licenciatura en Psicología.
Los correctores de los exámenes desconocían por completo el estudio. Esto convirtió el experimento en una especie de prueba de Turing del mundo real, en la que un educador que no dijera "¡tramposo!" en un papel creía que un humano había escrito la tarea.
Funcionaba así:
- Los envíos se crearon utilizando GPT-4.
- Presentaron un total de 33 exámenes generados por IA en cinco módulos.
- El estudio incluía tanto preguntas de respuesta corta (SAQ) como preguntas más largas basadas en ensayos.
- En los exámenes, los candidatos debían responder a cuatro preguntas de un total de seis, cada una de ellas con un límite de 200 palabras.
- En el caso de los exámenes de redacción, la presentación consistió en una única redacción de 1.500 palabras (los estudiantes presentaron una respuesta de entre tres o cuatro, según el módulo).
Los investigadores utilizaron las siguientes instrucciones con ChatGPT para los cuestionarios y las redacciones, respectivamente:
- "Incluyendo referencias a la literatura académica, pero no una sección de referencias separada, responda a la siguiente pregunta en 160 palabras: XXX"
- "Incluyendo referencias a la literatura académica, pero no una sección separada de referencias, escriba un ensayo de 2000 palabras respondiendo a la siguiente pregunta: XXX" (eligieron 2.000 palabras ya que ChatGPT no suele cumplir con el recuento de palabras)
- En cada pregunta, XXX se sustituía por la pregunta del examen.
En el recuento de los resultados, los correctores no marcaron 94% de los trabajos de IA. ¿Qué notas obtuvieron los trabajos de IA?
Los investigadores afirman: "Las calificaciones otorgadas a nuestras propuestas de IA fueron, de media, medio grado más altas que las obtenidas por los estudiantes reales. En todos los módulos, había una probabilidad de 83,4% de que los envíos de IA en un módulo superaran a una selección aleatoria del mismo número de envíos de estudiantes reales".
Los investigadores señalaron además que su enfoque probablemente sobreestima la detectabilidad del uso de IA en situaciones reales. Como explicó el Dr. Scarfe, "si los estudiantes reales estuvieran haciendo trampas en un examen, sería poco probable que adoptaran un enfoque tan ingenuamente obvio como el nuestro."
En la práctica, los alumnos podrían utilizar la IA como punto de partida, refinando y personalizando el resultado, lo que haría que la detección fuera aún más difícil.
Y por si fuera poco, además de los envíos de IA de los investigadores, es probable que otros estudiantes utilizaran ChatGPT para sus respuestas. Esto significa que la tasa de detección podría ser incluso inferior a los resultados registrados.
No hay soluciones sencillas
¿No podrían los tutores haber utilizado simplemente un software de detección de IA? Tal vez, pero no con seguridad, dice el estudio.
detectores de IA, como el que ofrece la popular academia plataforma contra el plagio Turnitinhan demostrado ser inexactas.
Además, los detectores de IA corren el riesgo de acusar a los hablantes no nativos de inglés que son menos propensos a utilizar cierto vocabulario, modismos, etc., que la IA puede ver como señales de escritura humana.
Sin medios fiables para detectar los contenidos generados por IA, los responsables educativos se rascan la cabeza. ¿Debe perseguirse el uso de la IA o simplemente debe formar parte del plan de estudios? ¿Debe normalizarse el uso de la IA como el de la calculadora?
En general, existe cierto consenso en que la integración de la IA en la educación no está exenta de riesgos. En el peor de los casos, amenaza con erosionar el pensamiento crítico y frenar la creación de nuevos conocimientos auténticos.
La catedrática Karen Yeung advirtió del riesgo de "descualificación" de los estudiantes, a The GuardianExiste un peligro real de que la próxima generación acabe atada a estas máquinas, incapaz de pensar, analizar o escribir con seriedad sin su ayuda".
Para combatir el uso indebido de la IA, los investigadores de Reading recomiendan abandonar los exámenes no supervisados para realizar en casa y pasar a entornos más controlados. Esto podría implicar una vuelta a los exámenes presenciales tradicionales o el desarrollo de nuevos formatos de evaluación resistentes a la IA.
Otra posibilidad - y un modelo que algunas universidades ya están siguiendo - está desarrollando cursos que enseñan a los estudiantes a utilizar la IA de forma crítica y ética.
También tenemos que hacer frente a la evidente falta de conocimientos de IA entre los tutores que pone de manifiesto este estudio. Parece bastante lamentable.
ChatGPT recurre a menudo a ciertos "tropos" o patrones oracionales que resultan bastante obvios cuando se está expuesto a ellos con frecuencia.
Sería interesante ver cómo se comportaría en las mismas condiciones un tutor "entrenado" para reconocer la escritura de la IA.
El historial de exámenes de ChatGPT es variado
El estudio de la Universidad de Reading no es el primero que pone a prueba las capacidades de la IA en entornos académicos. Varios estudios han examinado el rendimiento de la IA en distintos campos y niveles educativos:
- Reconocimientos médicos: Un grupo de médicos pediatras probó ChatGPT (GPT-3.5) en el examen de neonatología-perinatología. La IA sólo obtuvo 46% de respuestas correctas y obtuvo los mejores resultados en las preguntas de memoria básica y razonamiento clínico, pero tuvo problemas con el razonamiento multilógico. Curiosamente, obtuvo la puntuación más alta (78,5%) en la sección de ética.
- Exámenes financieros: Investigadores de JPMorgan Chase & Co. probaron el GPT-4 en el examen de Analista Financiero Colegiado (CFA). Mientras que ChatGPT tenía pocas probabilidades de superar los niveles I y II, GPT-4 mostraba "una posibilidad decente" si se le estimulaba adecuadamente. Los modelos de IA obtuvieron buenos resultados en las secciones de derivados, inversiones alternativas y ética, pero tuvieron dificultades en las de gestión de carteras y economía.
- Exámenes de Derecho: ChatGPT se ha puesto a prueba en el examen de acceso a la abogacía, obteniendo a menudo una puntuación muy alta.
- Pruebas estandarizadas: La IA ha obtenido buenos resultados en los exámenes Graduate Record Examinations (GRE), SAT Reading and Writing y Advanced Placement.
- Cursos universitarios: En otro estudio se comparó ChatGPT (no se indica el modelo) con 32 temas de nivel universitario, y se descubrió que superaba o superaba a los estudiantes. sólo en 9 de 32 exámenes.
Así pues, aunque la IA destaca en algunas áreas, esto es muy variable en función de la asignatura y el tipo de prueba de que se trate.
La conclusión es que si eres un estudiante al que no le importa hacer trampas, puedes usar ChatGPT para sacar mejores notas con sólo un 6% de posibilidades de que te pillen. Tienes que adorar esas probabilidades.
Como señalan los investigadores, los métodos de evaluación de los estudiantes tendrán que cambiar para mantener su integridad académica, especialmente a medida que los contenidos generados por IA sean más difíciles de detectar.
Los investigadores añadieron una conclusión humorística a su artículo.
"Si dijéramos que GPT-4 ha diseñado parte de este estudio, ha realizado parte del análisis y ha ayudado a redactar el manuscrito, aparte de las secciones en las que hemos citado directamente a GPT-4, ¿qué partes del manuscrito identificarías como escritas por GPT-4 en lugar de por los autores que figuran en la lista?".
Si los investigadores "hicieron trampas" utilizando IA para redactar el estudio, ¿cómo lo demostrarías?