Un nuevo modelo de aprendizaje automático supera a los modelos de detección de textos de AI para artículos del campo de la química.
El estudio, publicado en Informes sobre células Ciencias físicas, describe un clasificador de texto de IA que supera el rendimiento de otros dos populares sistemas de detección de IA, incluido ZeroGPT.
El modelo examina 20 rasgos estilísticos de la escritura, como la variación en la longitud de las frases y el uso específico de palabras y signos de puntuación, para evaluar si un texto ha sido compuesto por un académico o por ChatGPT.
Los investigadores entrenaron el modelo con las introducciones de 100 artículos publicados en diez revistas de química de la American Chemical Society (ACS). A continuación, los investigadores pidieron a ChatGPT-3.5 que elaborara 200 introducciones con un estilo coherente con las revistas de la ACS, proporcionando los títulos de la mitad y los resúmenes de la otra mitad.
Tras la evaluación, el detector identificó sin problemas 100% de las introducciones cuyo autor era ChatGPT basándose en los títulos. Al analizar introducciones generadas a partir de resúmenes, la precisión se redujo ligeramente a 98%.
La competencia del detector fue consistente incluso con texto del modelo GPT-4. Se comparó con ZeroGPT y con una herramienta de clasificación de textos de OpenAI, y ambos demostraron índices de precisión significativamente inferiores.
La coautora del estudio, Heather Desaire, química de la Universidad de Kansas en Lawrence, destacó la singularidad de su herramienta: "La mayor parte del campo del análisis de textos quiere un detector realmente general que funcione con cualquier cosa. Nosotros buscábamos realmente la precisión creando una herramienta centrada en un tipo concreto de papel".
Aunque la herramienta demostró su eficacia en varios estilos de revistas y temas, está muy especializada en artículos científicos y fue menos eficaz con el material de los periódicos universitarios.
Como la IA sólo se aplicaba a introducciones y resúmenes, no funcionaría eficazmente en un artículo entero.
Más información sobre el estudio
Dados los malos resultados de los detectores de escritura por IA existentes y la polémica que están suscitando, cualquier modelo con una tasa de precisión cercana al 13% resulta muy interesante.
- Este detector de texto AI fue diseñado para artículos de revistas científicas, específicamente revistas de química, demostrando una notable precisión en la distinción entre texto humano y generado por AI, incluyendo texto GPT-4.
- El detector, que utiliza un algoritmo de aprendizaje automático XGBoost basado en 20 características textuales distintas, supera a las actuales herramientas de detección de IA y muestra una tasa de precisión del 98%-100%.
- La herramienta identificó con éxito texto generado por IA en varios escenarios de prueba, incluso con instrucciones diseñadas para ocultar el uso de IA, lo que indica su solidez frente a diferentes estilos y complejidades de escritura.
Sin embargo, con un conjunto de datos de entrenamiento tan pequeño, hay que decir que este enfoque parece vulnerable al sobreajuste, lo que significa que el modelo podría funcionar excepcionalmente bien para los datos utilizados, pero mostrar un rendimiento pobre fuera de ellos.
Además, es posible que haya un sesgo implícito a la hora de etiquetar texto como escrito por humanos en casos ambiguos, dado que el detector se está desarrollando para detectar texto generado por IA, lo que posiblemente dé prioridad a los falsos negativos frente a los falsos positivos.