La publication de modèles d'IA plus petits et plus efficaces, comme le modèle révolutionnaire Mixtral 8x7B de Mistral, a fait des concepts de "mélange d'experts" (MoE) et de "sparité" des sujets d'actualité.
Ces termes sont passés du domaine des documents de recherche complexes sur l'intelligence artificielle à celui des articles de presse faisant état de l'amélioration rapide des grands modèles de langage (LLM).
Heureusement, il n'est pas nécessaire d'être un data scientist pour avoir une idée générale de ce que sont la MoE et la Sparsité et pourquoi ces concepts sont importants.
Mélange d'experts
Les LLM comme le GPT-3 sont basés sur une architecture de réseau dense. Ces modèles sont constitués de couches de réseaux neuronaux où chaque neurone d'une couche est connecté à tous les neurones des couches précédentes et suivantes.
Tous les neurones participent à l'apprentissage et à l'inférence, c'est-à-dire au processus de génération d'une réponse à votre demande. Ces modèles sont parfaits pour aborder une grande variété de tâches, mais ils utilisent beaucoup de puissance de calcul parce que chaque partie de leur réseau participe au traitement d'une entrée.
Un modèle basé sur une architecture MoE décompose les couches en un certain nombre d'"experts" où chaque expert est un réseau neuronal pré-entraîné sur des fonctions spécifiques. Ainsi, lorsque vous voyez un modèle appelé Mixtral 8x7B, cela signifie qu'il comporte 8 couches d'experts de 7 milliards de paramètres chacune.
Chaque expert est formé pour être très compétent sur un aspect étroit du problème global, un peu comme les spécialistes d'un domaine.
Une fois la demande formulée, un réseau de contrôle la décompose en différents éléments et décide quel expert est le plus apte à la traiter. Les résultats de chaque expert sont ensuite combinés pour fournir le résultat final.
Imaginez que vous ayez un groupe d'artisans possédant des compétences très spécifiques pour effectuer les travaux de rénovation de votre maison. Au lieu d'engager un homme à tout faire (réseau dense) pour tout faire, vous demandez à Jean le plombier de s'occuper de la plomberie et à Pierre l'électricien de s'occuper de l'électricité.
Ces modèles sont plus rapides à former car il n'est pas nécessaire de former l'ensemble du modèle pour tout faire.
Les modèles MoE ont également une inférence plus rapide que les modèles denses avec le même nombre de paramètres. C'est pourquoi les Mixtral 8x7B avec un total de 56 milliards de paramètres, peut égaler ou battre GPT-3.5 qui a 175 milliards de paramètres.
La rumeur veut que Le GPT-4 utilise une architecture MoE avec 16 experts, tandis que Gémeaux utilise une architecture dense.
Sparsité
L'éparpillement fait référence à l'idée de réduire le nombre d'éléments actifs dans un modèle, tels que les neurones ou les poids, sans compromettre de manière significative ses performances.
Si les données d'entrée des modèles d'IA, comme le texte ou les images, contiennent beaucoup de zéros, la technique de représentation des données éparses ne gaspille pas d'efforts pour stocker les zéros.
Dans un réseau neuronal peu dense, les poids, ou la force de connexion entre les neurones, sont souvent nuls. L'éparpillement permet d'élaguer, ou de supprimer, ces poids afin qu'ils ne soient pas pris en compte lors du traitement. Un modèle de MdE est également naturellement clairsemé, car un expert peut être impliqué dans le traitement tandis que les autres restent inactifs.
La parcimonie peut conduire à des modèles moins gourmands en ressources informatiques et moins gourmands en espace de stockage. Les modèles d'intelligence artificielle qui fonctionneront à terme sur votre appareil s'appuieront fortement sur le principe de parcimonie.
On peut comparer la sparité à une bibliothèque où l'on chercherait une réponse à une question. Si la bibliothèque compte des milliards de livres, il est possible d'ouvrir chaque livre de la bibliothèque et de trouver des réponses pertinentes dans certains d'entre eux. C'est ce que fait un modèle non épars.
Si nous nous débarrassons d'un grand nombre de livres qui contiennent des pages blanches ou des informations non pertinentes, il est plus facile de trouver les livres qui correspondent à notre question, ce qui nous permet d'ouvrir moins de livres et de trouver la réponse plus rapidement.
Si vous aimez vous tenir au courant des derniers développements en matière d'IA, attendez-vous à voir MoE et Sparsity mentionnés plus souvent. Les LLM sont sur le point de devenir beaucoup plus petits et plus rapides.