Mezcla de expertos y dispersión - Explicación de temas candentes de IA

12 de diciembre de 2023

El lanzamiento de modelos de IA más pequeños y eficientes, como el innovador modelo Mixtral 8x7B de Mistral, ha hecho que los conceptos de "mezcla de expertos" (MoE) y "dispersión" se conviertan en temas candentes.

Estos términos han pasado del ámbito de los complejos trabajos de investigación sobre IA a los artículos de prensa que informan sobre la rápida mejora de los Grandes Modelos Lingüísticos (LLM).

Afortunadamente, no hace falta ser un científico de datos para tener una idea general de lo que son MoE y Sparsity y por qué estos conceptos son importantes.

Mezcla de expertos

Los LLM como GPT-3 se basan en una arquitectura de red densa. Estos modelos están formados por capas de redes neuronales en las que cada neurona de una capa está conectada a todas las neuronas de las capas anterior y posterior.

Todas las neuronas intervienen tanto durante el entrenamiento como durante la inferencia, el proceso de generar una respuesta a su pregunta. Estos modelos son excelentes para abordar una gran variedad de tareas, pero utilizan mucha potencia de cálculo porque cada parte de su red participa en el procesamiento de una entrada.

Un modelo basado en una arquitectura MoE divide las capas en un número determinado de "expertos", donde cada experto es una red neuronal preentrenada en funciones específicas. Así, cuando veas un modelo llamado Mixtral 8x7B significa que tiene 8 capas expertas de 7.000 millones de parámetros cada una.

Cada experto está formado para ser muy bueno en un aspecto concreto del problema general, como los especialistas en un campo.

Una vez formulada la pregunta, una red Gating la divide en diferentes símbolos y decide qué experto es el más adecuado para procesarla. Los resultados de cada experto se combinan para obtener el resultado final.

Piense en el ME como si tuviera un grupo de comerciantes con habilidades muy específicas para hacer la reforma de su casa. En lugar de contratar a un manitas general (red densa) para que lo haga todo, le pides a Juan el fontanero que se ocupe de la fontanería y a Pedro el electricista que se ocupe de la electricidad.

Estos modelos son más rápidos de entrenar porque no es necesario entrenar todo el modelo para hacerlo todo.

Los modelos MoE también tienen una inferencia más rápida en comparación con los modelos densos con el mismo número de parámetros. Por ello Mixtral 8x7B con un total de 56.000 millones de parámetros, puede igualar o superar a GPT-3.5, que tiene 175.000 millones de parámetros.

Se rumorea que GPT-4 utiliza una arquitectura MoE con 16 expertos, mientras que Géminis emplea una arquitectura densa.

Sparsity

La sparsity se refiere a la idea de reducir el número de elementos activos de un modelo, como las neuronas o los pesos, sin comprometer significativamente su rendimiento.

Si los datos de entrada de los modelos de IA, como texto o imágenes, contienen muchos ceros, la técnica de representación de datos dispersos no malgasta esfuerzos en almacenar los ceros.

En una red neuronal dispersa, los pesos o la fuerza de la conexión entre neuronas suele ser cero. La sparsity poda, o elimina, esos pesos para que no se incluyan durante el procesamiento. Un modelo MoE también es naturalmente disperso porque puede tener un experto implicado en el procesamiento mientras el resto permanece inactivo.

La dispersión puede dar lugar a modelos menos intensivos desde el punto de vista computacional y que requieran menos almacenamiento. Los modelos de IA que finalmente se ejecuten en tu dispositivo dependerán en gran medida de Sparsity.

La dispersión es como ir a una biblioteca a buscar la respuesta a una pregunta. Si la biblioteca tiene miles de millones de libros, se podría abrir cada uno de ellos y, al final, encontrar las respuestas pertinentes en algunos de los libros. Eso es lo que hace un modelo no disperso.

Si nos deshacemos de muchos de los libros que tienen sobre todo páginas en blanco o información irrelevante, será más fácil encontrar los libros relevantes para nuestra pregunta, de modo que abriremos menos libros y encontraremos la respuesta más rápidamente.

Si le gusta estar al día de los últimos avances en IA, espere que se hable más a menudo de MoE y Sparsity. Los LLM van a ser mucho más pequeños y rápidos.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales