Los LLM producen resultados más imprecisos y sesgados con entradas más largas

29 de febrero de 2024

LLM

A pesar de los rápidos avances de los LLM, seguimos sin comprender cómo estos modelos hacen frente a entradas más largas.

Mosh Levy, Alon Jacoby y Yoav Goldberg, de la Universidad Bar-Ilan y el Instituto Allen de Inteligencia Artificial, investigaron cómo varía el rendimiento de los grandes modelos lingüísticos (LLM) en función de la longitud del texto de entrada que deben procesar.

Desarrollaron un marco de razonamiento específico para este fin, que les permitió diseccionar la influencia de la longitud de la entrada en el razonamiento LLM en un entorno controlado.

El marco de preguntas proponía diferentes versiones de la misma pregunta, cada una de las cuales contenía la información necesaria para responder a la pregunta, rellenada con texto adicional irrelevante de longitud y tipo variables. 

Esto permite aislar la longitud de la entrada como variable, garantizando que los cambios en el rendimiento del modelo puedan atribuirse directamente a la longitud de la entrada.

Principales resultados

Levy, Jacoby y Goldberg descubrieron que los LLM muestran un notable descenso en el rendimiento del razonamiento a longitudes de entrada muy por debajo de lo que los desarrolladores afirman que pueden manejar. Documentaron sus hallazgos en este estudio.

El declive se observó sistemáticamente en todas las versiones del conjunto de datos, lo que indica un problema sistémico con el manejo de entradas más largas en lugar de un problema vinculado a muestras de datos o arquitecturas de modelos específicas. 

Como describen los investigadores, "nuestros hallazgos muestran una notable degradación en el rendimiento de razonamiento de los LLM a longitudes de entrada mucho más cortas que su máximo técnico. Demostramos que la tendencia a la degradación aparece en todas las versiones de nuestro conjunto de datos, aunque con diferentes intensidades."

 

A medida que aumenta el tamaño de la entrada, disminuye la capacidad de realizar tareas de razonamiento. Estas entradas constan de texto relevante (resaltado en rojo) e irrelevante (en gris), que se obtienen de varios lugares y se amplían de forma incremental. Para responder con precisión es necesario identificar dos segmentos de texto concretos, que podrían estar situados aleatoriamente dentro de la entrada. Los datos de rendimiento se han obtenido a partir de 600 muestras. Fuente: Vía ArXiv.

Además, el estudio pone de relieve cómo las métricas tradicionales como la perplejidad, utilizadas habitualmente para evaluar los LLM, no se correlacionan con el rendimiento de los modelos en tareas de razonamiento que implican entradas largas. 

Una exploración más profunda descubrió que la degradación del rendimiento no dependía únicamente de la presencia de información irrelevante (relleno), sino que se observaba incluso cuando dicho relleno consistía en información relevante duplicada.


Esto sugiere que el reto para los LLM reside en filtrar el ruido y el procesamiento inherente a las secuencias de texto más largas.

Ignorar las instrucciones

Un modo de fallo crítico que se destaca en el estudio es la tendencia de los LLM a ignorar las instrucciones incrustadas en la entrada a medida que ésta aumenta. 

Los modelos también generaban a veces respuestas que indicaban incertidumbre o falta de información suficiente, como "No hay suficiente información en el texto", a pesar de contar con toda la información necesaria.

En general, a medida que aumenta la longitud de la información, los estudiantes de LLM parecen tener dificultades para priorizar y centrarse en los elementos de información clave, incluidas las instrucciones directas. 

Mostrar sesgos en las respuestas

Otro problema notable fue el aumento de los sesgos en las respuestas de los modelos a medida que las entradas se hacían más largas. 

En concreto, los LLM mostraron un sesgo hacia la respuesta "Falso" a medida que aumentaba la longitud de la entrada. Este sesgo indica un sesgo en la estimación de probabilidades o en los procesos de toma de decisiones dentro del modelo, posiblemente como mecanismo defensivo en respuesta a la mayor incertidumbre debida a la mayor longitud de las entradas.

La inclinación a favorecer las respuestas "Falsas" también podría reflejar un desequilibrio subyacente en los datos de entrenamiento o un artefacto del proceso de entrenamiento de los modelos, donde las respuestas negativas pueden estar sobrerrepresentadas o asociadas a contextos de incertidumbre y ambigüedad. 

modelos AI
Los modelos mostraron un sesgo hacia la respuesta "falsa" a las preguntas binarias a medida que aumentaba la longitud de la entrada. Fuente: Vía ArXiv.

Este sesgo afecta a la precisión de los resultados de los modelos y suscita dudas sobre la fiabilidad y equidad de los LLM en aplicaciones que requieren una comprensión matizada e imparcialidad.

La aplicación de estrategias sólidas de detección y mitigación de sesgos durante las fases de entrenamiento y ajuste de los modelos es esencial para reducir los sesgos injustificados en las respuestas de los modelos.

Earantizar que los conjuntos de datos de entrenamiento sean diversos, equilibrados y representativos de una amplia gama de escenarios también puede ayudar a minimizar los sesgos y mejorar la generalización de los modelos.

Esto contribuye a otros estudios recientes que, del mismo modo, ponen de manifiesto problemas fundamentales en el funcionamiento de los LLM, lo que lleva a una situación en la que esa "deuda técnica" podría amenazar la funcionalidad y la integridad del modelo con el paso del tiempo. 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales