Un nuevo método podría acelerar 300 veces los grandes modelos lingüísticos

6 de diciembre de 2023

Científicos de la ETH de Zúrich han descubierto que los grandes modelos lingüísticos (LLM) sólo necesitan utilizar una pequeña fracción de sus neuronas para inferencias individuales. Su nuevo enfoque promete hacer que los LLM funcionen mucho más rápido.

Para empezar a entender cómo han conseguido acelerar los modelos de IA, tenemos que hacernos una idea aproximada de algunos de los aspectos técnicos que componen un modelo lingüístico de IA.

Los modelos de IA como GPT o Llama están formados por redes feedforward, un tipo de red neuronal artificial.

Las redes feedforward (FF) suelen organizarse en capas, en las que cada capa de neuronas recibe la entrada de la capa anterior y envía su salida a la capa siguiente.

Esto implica una multiplicación matricial densa (DMM) que requiere que cada neurona de la FF realice cálculos sobre todas las entradas de la capa anterior. Por eso Nvidia vende muchas de sus GPUs porque este proceso requiere mucha capacidad de procesamiento.

Los investigadores utiliza las redes de avance rápido (Fast Feedforward Networks, FFF) para agilizar este proceso. Una FFF toma cada capa de neuronas, la divide en bloques y, a continuación, selecciona sólo los bloques más relevantes en función de la entrada. Este proceso equivale a realizar una multiplicación matricial condicional (MMC).

Esto significa que en lugar de que todas las neuronas de una capa participen en el cálculo, sólo lo hace una fracción muy pequeña.

Piénsalo como si estuvieras clasificando un montón de cartas para encontrar la que va dirigida a ti. En lugar de leer el nombre y la dirección de cada carta, puedes ordenarlas primero por código postal y centrarte solo en las de tu zona.

Del mismo modo, las FFF identifican sólo las pocas neuronas necesarias para cada cálculo, lo que da como resultado sólo una fracción del procesamiento necesario en comparación con las FF tradicionales.

¿Cuánto más rápido?

Los investigadores probaron su método en una variante del modelo BERT de Google que denominaron UltraFastBERT. UltraFastBERT consta de 4.095 neuronas, pero solo utiliza de forma selectiva 12 neuronas en cada capa de inferencia.

Esto significa que UltraFastBERT requiere que alrededor de 0,03% de sus neuronas participen en el procesamiento durante la inferencia, mientras que el BERT normal necesitaría 100% de sus neuronas implicadas en el cálculo.

En teoría, esto significa que UltraFastBERT sería 341 veces más rápido que BERT o GPT-3.

¿Por qué decimos "teóricamente" cuando los investigadores aseguran que su método funciona? Porque tuvieron que crear una solución de software para que su FFF funcionara con BERT y sólo consiguieron una mejora de 78 veces en la velocidad durante las pruebas reales.

Es un secreto

El documento de investigación explicaba que "la multiplicación de matrices densas es la operación matemática más optimizada de la historia de la informática. Se ha hecho un enorme esfuerzo para diseñar memorias, chips, conjuntos de instrucciones y rutinas de software que la ejecuten lo más rápido posible. Muchos de estos avances se han... mantenido confidenciales y sólo se han expuesto al usuario final a través de potentes pero restrictivas interfaces de programación".

Básicamente, están diciendo que los ingenieros que descubrieron las formas más eficientes de procesar las matemáticas necesarias para las redes FF tradicionales mantienen en secreto su software y algoritmos de bajo nivel y no te dejan ver su código.

Si los cerebros detrás de los diseños de las GPU de Intel o Nvidia permitieran el acceso a código de bajo nivel para implementar redes FFF en modelos de IA, entonces la mejora de velocidad de 341x podría ser una realidad.

Pero, ¿lo harán? Si pudiéramos diseñar nuestras GPU de forma que la gente pudiera comprar 99,7% menos de ellas para realizar la misma cantidad de procesamiento, ¿lo haríamos? La economía tendrá algo que decir al respecto, pero las redes FFF pueden suponer el próximo gran salto de la IA.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales