El enfoque convencional de la investigación científica se basa en gran medida en la revisión por pares, en la que otros científicos evalúan y critican meticulosamente un estudio antes de publicarlo.
Sin embargo, este sistema tradicional se encuentra con cuellos de botella debido al creciente número de envíos y a la escasez de revisores humanos disponibles.
"Cada vez es más difícil para los investigadores obtener comentarios de calidad de los revisores", afirma James Zou, de la Universidad de Stanford.
En respuesta a este reto, Zou y su equipo volvió a ChatGPT para descubrir si el chatbot podía ofrecer comentarios claros y objetivos sobre artículos de investigación. Utilizaron GPT-4 para revisar más de 3000 manuscritos de Nature y más de 1700 artículos de la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR).
Al comparar los comentarios de ChatGPT con los de los revisores humanos sobre los mismos artículos, descubrieron que más de 50% de los comentarios de la IA sobre los artículos de Nature y más de 77% sobre los artículos del ICLR coincidían con los puntos planteados por los revisores humanos.
Ampliando el experimento, el equipo también utilizó ChatGPT para evaluar varios cientos de artículos aún por revisar en servidores de preimpresión.
Al recopilar los comentarios de 308 autores de biología computacional e IA, descubrieron que más de 82% de ellos consideraban que los comentarios de ChatGPT eran, en general, más beneficiosos que algunos de los que habían recibido anteriormente de revisores humanos.
A pesar de estos prometedores resultados, persisten las dudas sobre la capacidad de la IA para proporcionar información matizada y técnicamente detallada.
Además, la respuesta de ChatGPT puede ser impredecible, con resultados variables en función del contenido del estudio.
Zou reconoce estas limitaciones y señala que algunos investigadores consideraron que los comentarios de ChatGPT eran demasiado vagos.
Los investigadores se mostraron optimistas ante la posibilidad de que la GPT-4 pueda ayudar en algunas de las tareas más pesadas del proceso de revisión por pares, señalando errores e incoherencias más evidentes.
Más información sobre el estudio
ChatGPT -en concreto, el modelo GPT-4- es prácticamente eficaz para revisar estudios científicos y proporcionar información rápida.
Más información sobre el estudio:
- Objetivo: El estudio identifica la dificultad de obtener revisiones por pares humanas de alta calidad. Su objetivo era explorar el uso de grandes modelos lingüísticos (LLM) como GPT-4 para proporcionar comentarios científicos sobre manuscritos de investigación.
- Diseño de modelos: Los investigadores crearon un proceso automatizado utilizando GPT-4 para proporcionar comentarios sobre los PDF completos de artículos científicos. El objetivo es evaluar en qué medida los comentarios generados por LLM pueden complementar o ayudar a los actuales procesos de revisión por pares en la publicación científica.
- Resultados: La calidad de los comentarios de GPT-4 se evaluó mediante dos estudios. El primero consistió en un análisis retrospectivo en el que se compararon los comentarios generados con los comentarios de revisores humanos sobre 3.096 artículos de 15 revistas de la familia Nature y 1.709 artículos de la conferencia sobre aprendizaje automático del ICLR. Se evaluó cuantitativamente el solapamiento de los puntos planteados por el GPT-4 y los revisores humanos.
- El segundo estudio se realizó con 308 investigadores de 110 instituciones estadounidenses de IA y biología computacional. Estos investigadores aportaron sus percepciones sobre la retroalimentación generada por el sistema GPT-4 en sus propios trabajos.
- Conclusiones: Los investigadores encontraron un solapamiento sustancial entre los puntos planteados por el GPT-4 y los revisores humanos, así como percepciones positivas de la retroalimentación generada por el LLM por parte de la mayoría de los participantes en el estudio de usuarios. Los resultados sugieren que el LLM y la retroalimentación humana pueden complementarse, aunque también se identificaron limitaciones de la retroalimentación generada por el LLM.
Es casi seguro que la GPT-4 fue expuesta a cientos de miles de estudios científicos, que probablemente contribuya a la capacidad del modelo para diseccionar y criticar con precisión la investigación de forma similar a los revisores homólogos humanos.
La IA está cada vez más entrelazada con los procesos académicos. Recientemente, Nature encuestó a 1.600 investigadores sobre sus opiniones acerca de las IA generativas como ChatGPT, y aunque muchos plantearon su preocupación por la parcialidad, la mayoría admitió que su integración en el proceso científico es inevitable.