Infini-attention de Google da a los LLM un contexto "infinito

15 de abril de 2024

  • Los investigadores de Google han desarrollado una técnica que podría dar a las LLM ventanas de contexto "infinitas".
  • Infini-attention ayuda a las LLM a gestionar mejor la memoria para procesar textos largos sin perder rendimiento
  • La técnica podría ayudar a los modelos de IA más pequeños a procesar más datos y aprender continuamente.

Los investigadores de Google desarrollaron una técnica llamada Infini-attention, que permite a los LLM manejar textos infinitamente largos sin aumentar los requisitos de computación y memoria.

La arquitectura Transformer de un LLM es lo que le permite prestar atención a todos los tokens de un prompt. La complejidad de las multiplicaciones matriciales y de productos de puntos que realiza es cuadrática.

Esto significa que duplicar los tokens de tu prompt supone una necesidad cuatro veces mayor de memoria y potencia de procesamiento. Por eso es tan difícil hacer LLM con grandes ventanas contextuales sin que se disparen los requisitos de memoria y computación.

En un LLM "estándar", la información del principio del contenido del prompt se pierde una vez que el prompt se hace más grande que la ventana contextual. Google trabajo de investigación explica cómo Infini-attention puede retener datos más allá de la ventana contextual.

¿Cómo funciona Infini-attention?

Infini-attention combina técnicas de memoria compresiva con mecanismos de atención modificados para que no se pierda la información relevante más antigua.

Una vez que la solicitud de entrada crece más allá de la longitud de contexto del modelo, la memoria compresiva almacena la información en un formato comprimido en lugar de descartarla.

Esto permite almacenar información más antigua y menos relevante de forma inmediata sin que los requisitos de memoria y computación aumenten indefinidamente a medida que crece la entrada de datos.

En lugar de intentar retener toda la información de entrada más antigua, la memoria compresiva de Infini-attention pondera y resume la información que se considera relevante y digna de ser retenida.

Infini-attention toma entonces un mecanismo de atención "vainilla" pero reutiliza los estados de valor clave (KV) de cada segmento posterior del modelo en lugar de descartarlos.

He aquí un diagrama que muestra la diferencia entre Infini-attention y otro modelo de contexto ampliado Transformer XL.

Infini-Transformer (arriba) tiene un historial de contextos completo, mientras que Transformer-XL (abajo) descarta los contextos antiguos, ya que sólo almacena en caché los estados KV del último segmento. Fuente: arXiv

El resultado es un LLM que presta atención local a los datos de entrada recientes, pero que también lleva continuamente destilados datos históricos comprimidos a los que puede aplicar atención a largo plazo.

El artículo señala que "esta sutil pero crítica modificación de la capa de atención permite a las LLM procesar contextos infinitamente largos con recursos limitados de memoria y computación."

¿Es bueno?

Google realizó pruebas comparativas utilizando modelos Infini-attention más pequeños de 1B y 8B parámetros. Se compararon con otros modelos de contexto ampliado, como Transformer-XL y Memorizing Transformers.

El Infini-Transformer obtuvo puntuaciones de perplejidad significativamente más bajas que los demás modelos al procesar contenidos de texto largo. Una puntuación de perplejidad más baja significa que el modelo está más seguro de sus predicciones de salida.

En las pruebas de "recuperación de claves de acceso", los modelos Infini-attention encontraron sistemáticamente el número aleatorio oculto en un texto de hasta 1 millón de fichas.

Otros modelos a menudo consiguen recuperar la clave de acceso hacia el final de la entrada, pero tienen dificultades para encontrarla en medio o al principio de contenidos largos. Infini-attention no tuvo problemas en esta prueba.

Las pruebas comparativas son muy técnicas, pero la conclusión es que Infini-attention superó a los modelos de referencia a la hora de resumir y gestionar secuencias largas, manteniendo el contexto durante periodos prolongados.

Y lo que es más significativo, mantuvo esta capacidad de retención superior al tiempo que requería 114 veces menos memoria.

Los resultados de las pruebas de referencia convencen a los investigadores de que Infini-attention podría escalarse para manejar secuencias de entrada extremadamente largas manteniendo limitados los recursos de memoria y computación.

La naturaleza plug-and-play de Infini-attention significa que podría utilizarse para el preentrenamiento continuo y la puesta a punto de los modelos Transformer existentes. De este modo se podrían ampliar eficazmente sus ventanas contextuales sin necesidad de volver a entrenar completamente el modelo.

Las ventanas de contexto seguirán creciendo, pero este enfoque demuestra que una memoria eficiente podría ser una solución mejor que una gran biblioteca.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales