Quiet-STaR enseña a los modelos lingüísticos a pensar antes de hablar

22 de marzo de 2024

  • Investigadores de la Universidad de Stanford han entrenado a un LM para que piense antes de generar resultados.
  • Quiet-STaR ayuda al modelo a generar y evaluar razonamientos para mejorar la predicción del siguiente token.
  • La técnica mejora la perplejidad, así como las pruebas matemáticas y de razonamiento de tiro cero.

Investigadores de la Universidad de Stanford y Notbad AI desarrollaron Quiet-STaR, una técnica que entrena un modelo lingüístico (LM) para razonar internamente antes de generar una salida.

Cuando los seres humanos hablamos, normalmente mantenemos un diálogo interior que da forma a las palabras que finalmente verbalizamos. Cuanto más pensemos antes de hablar, mejor será la calidad de nuestras palabras.

En su documentolos investigadores describen cómo entrenaron un LM (Mistral-7B) para aprender a imitar este proceso de forma generalizada. Quiet-STaR es una progresión de otra técnica llamada STaR, o Razonador Autodidacta.

STaR es un método de entrenamiento de un modelo con algunos ejemplos de preguntas con explicaciones (razonamientos) para las respuestas. El modelo utiliza estos ejemplos de cadena de pensamiento para intentar responder a las preguntas por sí mismo, descubriendo los razonamientos por sí mismo.

STaR evalúa si los razonamientos que elabora dan lugar a respuestas correctas y perfecciona sus razonamientos.

A pesar de lo impresionante que es STaR, su capacidad de razonamiento se limita a los contextos de pregunta-respuesta (QA) durante el entrenamiento. El objetivo de Quiet-STaR es dotar a un LM de una capacidad generalizada para aprender a razonar o desarrollar razonamientos, a través de una gama más amplia de textos, no sólo de conjuntos de datos QA.

¿Cómo funciona Quiet-STaR?

Una de las principales innovaciones de Quiet-STaR es que genera razonamientos, o pensamientos, en paralelo, siguiendo todos los tokens del texto que está procesando. No emite estos razonamientos en cadena, de ahí la parte "silenciosa" del nombre del algoritmo.

El algoritmo procesa los razonamientos a través de una "cabeza mezcladora". Cada razonamiento se evalúa en función de la precisión de la predicción del siguiente token que ha producido en comparación con la predicción realizada por el modelo base.

Si el modelo base (sin Quiet-STaR) ofrece una predicción mejor, entonces el razonamiento no era bueno. Si el razonamiento resulta en una predicción más precisa del siguiente token, entonces el algoritmo sabe que está haciendo algo bueno.

A continuación, utiliza un algoritmo de aprendizaje por refuerzo (REINFORCE) para aprender qué razonamientos ayudan y cuáles entorpecen el rendimiento del modelo. El resultado es que el modelo aprende una capacidad generalizada para pensar antes de predecir la siguiente ficha.

Resultados de Quiet-STaR

Los investigadores probaron el modelo Mistral-7B entrenado con Quiet-STaR en las pruebas de matemáticas GSM8K y de razonamiento de sentido común CommonsenseQA. Comprobaron que Quiet-STaR mejoraba la perplejidad y la capacidad de razonamiento directo sin disparo tanto en CommonsenseQA (de 36,3% a 47,2%) como en GSM8K (de 5,9% a 10,9%).

Resultados de Quiet-STaR en las pruebas de matemáticas de primaria GMSK8 y de razonamiento de sentido común CommonsenseQA. Cada línea representa una iteración de Quiet-STaR con diferentes longitudes de tokens de pensamiento y cuántos tokens razonó por adelantado. La referencia es Mistral-7B sin Quiet-STaR. Fuente: arXiv

Aunque el razonamiento matemático de Mistral-7B sigue sin ser excelente, Quiet-STaR consiguió una mejora de casi 85% sobre el modelo base, y esto sin ningún ajuste fino específico del conjunto de datos."

Los resultados de las pruebas también mostraron que las mejoras en el rendimiento estaban directamente relacionadas con cuántos tokens se asignaban a los pensamientos internos del modelo. Cuanto más pensaba antes de responder, mejor era la respuesta.

Estas mejoras se producen a costa de una considerable sobrecarga informática. El monólogo interior del modelo durante el proceso de pensamiento genera muchas fichas.

Con el tiempo, las mejoras en el hardware harán que la sobrecarga adicional que conllevan este tipo de técnicas sea menos importante.

Los investigadores concluyen que el trabajo futuro para optimizar Quiet-STaR también podría ayudar. Predecir dinámicamente si se requiere un proceso de pensamiento, o cuánto debe durar, podría reducir los tokens de pensamiento innecesarios.

Los resultados del entrenamiento de un modelo pequeño como Mistral-7B con Quiet-STaR son prometedores. Los investigadores creen que "las mismas técnicas aplicadas a un modelo mejor probablemente darían resultados desproporcionadamente mejores."

Cuestiones éticas

Hacer que un modelo lingüístico razone más como un ser humano plantea algunos problemas interesantes y cuestiones éticas.

Los investigadores señalan que "es imposible saber si el razonamiento expresado por el modelo en el lenguaje representa con exactitud el procesamiento interno del modelo". Los razonamientos que genera el modelo son representaciones en lenguaje natural de su razonamiento interno. ¿Son un reflejo exacto?

Además, señalan que "no hay salvaguardas contra patrones de razonamiento perjudiciales o sesgados si el modelo los considera útiles".

Puede que estemos satisfechos con la respuesta de un modelo de IA, pero puede que no nos guste, o incluso que no entendamos, el proceso de pensamiento que la ha dado.

Uno de los autores principales del artículo, Eric Zelikman, acaba de incorporarse esta semana a la xAI de Elon Musk. Él puede encontrar que Grok está menos preocupado por estas cuestiones éticas y más entusiasmado con la perspectiva del avance de la IA.

 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales