Une nouvelle approche permettrait de multiplier par 300 la vitesse des grands modèles linguistiques

6 décembre 2023

Des scientifiques de l'ETH Zurich ont découvert que les grands modèles de langage (LLM) n'ont besoin d'utiliser qu'une petite fraction de leurs neurones pour les inférences individuelles. Leur nouvelle approche promet de rendre les LLM beaucoup plus rapides.

Pour commencer à comprendre comment ils ont réussi à accélérer les modèles d'IA, nous devons avoir une idée approximative de certains des éléments techniques qui composent un modèle de langage d'IA.

Les modèles d'IA tels que GPT ou Llama sont constitués de réseaux de type feedforward, un type de réseau neuronal artificiel.

Les réseaux feedforward (FF) sont généralement organisés en couches, chaque couche de neurones recevant l'entrée de la couche précédente et envoyant sa sortie à la couche suivante.

Il s'agit d'une multiplication matricielle dense (DMM) qui exige que chaque neurone de la FF effectue des calculs sur toutes les entrées de la couche précédente. C'est pourquoi Nvidia vend beaucoup de ses GPU car ce processus nécessite beaucoup de puissance de traitement.

Les chercheurs a utilisé des réseaux à avance rapide (Fast Feedforward Networks - FFF) pour accélérer considérablement ce processus. Un FFF prend chaque couche de neurones, la divise en blocs, puis sélectionne uniquement les blocs les plus pertinents en fonction de l'entrée. Ce processus revient à effectuer une multiplication matricielle conditionnelle (CMM).

Cela signifie qu'au lieu que tous les neurones d'une couche soient impliqués dans le calcul, seule une très petite fraction l'est.

C'est un peu comme si vous triiez une pile de courrier pour trouver une lettre qui vous est destinée. Au lieu de lire le nom et l'adresse sur chaque lettre, vous pourriez d'abord les trier par code postal et vous concentrer sur celles qui concernent votre région.

De la même manière, les FFF n'identifient que les quelques neurones nécessaires à chaque calcul, ce qui ne représente qu'une fraction du traitement nécessaire par rapport aux FF traditionnels.

Combien de temps plus vite ?

Les chercheurs ont testé leur méthode sur une variante du modèle BERT de Google qu'ils ont appelée UltraFastBERT. UltraFastBERT se compose de 4095 neurones, mais n'engage sélectivement que 12 neurones pour chaque couche d'inférence.

Cela signifie que UltraFastBERT a besoin d'environ 0,03% de ses neurones pour être impliqué dans le traitement pendant l'inférence, alors que BERT normal aurait besoin de 100% de ses neurones pour être impliqué dans le calcul.

Théoriquement, cela signifie que UltraFastBERT serait 341 fois plus rapide que BERT ou GPT-3.

Pourquoi disons-nous "théoriquement" alors que les chercheurs nous assurent que leur méthode fonctionne ? Parce qu'ils ont dû créer une solution de contournement logicielle pour faire fonctionner leur FFF avec BERT et qu'ils n'ont obtenu qu'une amélioration de 78x de la vitesse lors de tests réels.

C'est un secret

Le document de recherche explique que "la multiplication de matrices denses est l'opération mathématique la plus optimisée de l'histoire de l'informatique. Des efforts considérables ont été déployés pour concevoir des mémoires, des puces, des jeux d'instructions et des routines logicielles permettant de l'exécuter aussi rapidement que possible. Nombre de ces avancées ont été [...] gardées confidentielles et exposées à l'utilisateur final uniquement par le biais d'interfaces de programmation puissantes mais restrictives".

En gros, ils disent que les ingénieurs qui ont trouvé les moyens les plus efficaces d'effectuer le traitement mathématique requis pour les réseaux FF traditionnels gardent secrets leurs logiciels et algorithmes de bas niveau et ne vous permettent pas de consulter leur code.

Si les concepteurs des GPU Intel ou Nvidia permettaient l'accès au code de bas niveau pour mettre en œuvre les réseaux FFF dans les modèles d'IA, l'amélioration de la vitesse de 341x pourrait être une réalité.

Mais le feront-ils ? Si vous pouviez concevoir vos GPU de manière à ce que les gens puissent en acheter 99,7% de moins pour effectuer la même quantité de traitement, le feriez-vous ? L'économie aura son mot à dire, mais les réseaux FFF pourraient constituer le prochain pas de géant dans le domaine de l'IA.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation