Rendimiento de los modelos de IA: ¿Razona o simplemente recita?

14 de julio de 2024

  • Investigadores del MIT comprueban si los modelos de IA se basan en el razonamiento o en la memoria para realizar las tareas
  • Cuando se les encomendaron tareas ligeramente modificadas, los LLM obtuvieron peores resultados que en las tareas estándar
  • Los LLM son buenos recordando datos de entrenamiento, pero no razonando de forma generalizada en tareas nuevas.

Cuando ChatGPT le da la respuesta correcta a su pregunta, ¿razona la petición o simplemente recuerda la respuesta a partir de sus datos de entrenamiento?

Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT diseñaron una serie de pruebas para comprobar si los modelos de IA "piensan" o simplemente tienen buena memoria.

Cuando le pides a un modelo de IA que resuelva un problema matemático como "¿Cuánto es 27+62?", responde rápidamente con la respuesta correcta: 89. Cómo podemos saber si entiende la aritmética subyacente o simplemente vio el problema en sus datos de entrenamiento?

En su papel, los investigadores probaron GPT-4, GPT-3.5 Turbo, Claude 1.3 y PaLM2 para ver si podían "generalizar no sólo a instancias no vistas de tareas conocidas, sino a tareas nuevas".

Diseñaron una serie de 11 tareas que diferían ligeramente de las tareas estándar en las que los LLM suelen rendir bien.

Los LLM deberían rendir igual de bien con las "tareas contrafactuales" si emplean procedimientos de resolución de tareas generales y transferibles.

Si un LLM "entiende" de matemáticas, entonces debería dar la respuesta correcta a un problema matemático en base-10 y en la poco utilizada base-9, por ejemplo.

He aquí algunos ejemplos de las tareas y el rendimiento de GPT-4.

Rendimiento de GPT-4 con tareas estándar por defecto (Azul) y tareas contrafactuales ligeramente alteradas (Naranja). Aquí se muestran ejemplos de las tareas y las respuestas correctas. Fuente: arXiv

El rendimiento de la GPT-4 en pruebas estándar (línea azul) es bueno, pero sus capacidades matemáticas, de razonamiento lógico y espacial, entre otras (línea naranja), se degradan significativamente cuando se altera ligeramente la tarea.

Los demás modelos mostraron una degradación similar, con GPT-4 a la cabeza.

A pesar de la degradación, el rendimiento en las tareas contrafácticas seguía siendo mejor que el azar. Los modelos de IA intentan razonar estas tareas, pero no lo hacen muy bien.

Los resultados muestran que el impresionante rendimiento de los modelos de IA en tareas como los exámenes universitarios se basa en un excelente recuerdo de los datos de entrenamiento, no en el razonamiento. Esto pone aún más de relieve que los modelos de IA no pueden generalizarse a tareas no vistas,

Zhaofeng Wu, estudiante de doctorado en Ingeniería Eléctrica e Informática del MIT, afiliado al CSAIL y autor principal del artículo, afirma: "Hemos descubierto un aspecto fascinante de los grandes modelos lingüísticos: destacan en escenarios familiares, casi como un camino trillado, pero tienen dificultades cuando el terreno se vuelve desconocido. Este dato es crucial para mejorar la adaptabilidad de estos modelos y ampliar sus horizontes de aplicación".

Vimos una demostración similar de esta incapacidad para generalizar cuando exploramos lo malos que son los modelos de IA en resolver un rompecabezas simplificado para cruzar un río.

Los investigadores concluyeron que, cuando los desarrolladores analizan sus modelos, deben "considerar la capacidad abstracta de la tarea como algo independiente del rendimiento observado en la tarea."

El enfoque "entrenar para probar" puede hacer que un modelo ascienda en los puntos de referencia, pero no ofrece una medida real de cómo se comportará el modelo cuando se le presente una nueva tarea para razonar.

Los investigadores sugieren que parte del problema radica en que estos modelos sólo se entrenan con texto de forma superficial.

Si los LLM están expuestos a más datos contextualizados del mundo real y a una representación semántica, podrían ser capaces de generalizar cuando se les presenten variaciones de la tarea.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales