L'avenir de la formation à l'IA : L'approche de DisTrO qui change la donne

27 août 2024

  • Le groupe de recherche en IA Nous Research a mis au point un optimiseur de formation en IA appelé DisTrO.
  • DisTrO permet d'entraîner des modèles d'IA à l'aide de matériel commercial via des connexions Internet normales.
  • La formation décentralisée de grands modèles pourrait réduire la dépendance à l'égard des centres de données GPU coûteux.

Le groupe de recherche en IA appliquée Nous Research a mis au point un optimiseur de formation de modèles d'IA qui pourrait changer radicalement la façon dont les modèles d'IA du futur seront formés.

Traditionnellement, l'entraînement d'un modèle d'IA nécessite des centres de données massifs équipés de GPU tels que les H100 de NVIDIA, ainsi que des interconnexions à haut débit pour synchroniser les mises à jour du gradient et des paramètres entre les GPU.

Chaque étape de formation nécessite le partage de grandes quantités de données entre des milliers de GPU. La bande passante requise implique que ces GPU soient câblés et physiquement proches les uns des autres. Avec DisTrO, Nous Research a peut-être trouvé un moyen de changer complètement cette situation.

Lors de l'apprentissage d'un modèle, un algorithme optimiseur ajuste les paramètres du modèle afin de minimiser la fonction de perte. La fonction de perte mesure la différence entre les prédictions du modèle et les résultats réels, et l'objectif est de réduire cette perte autant que possible grâce à une formation itérative.

DisTrO-AdamW est une variante de l'algorithme populaire de l'optimiseur AdamW. DisTrO est l'acronyme de "Distributed Training Over-the-Internet" (formation distribuée sur Internet) et indique ce qui le rend si spécial.

DisTrO-AdamW réduit considérablement la quantité de communication inter-GPU requise lors de l'apprentissage de grands réseaux neuronaux. Et ce, sans sacrifier le taux de convergence ou la précision du processus d'apprentissage.

Lors de tests empiriques, DisTrO-AdamW a permis de réduire de 857 fois la communication inter-GPU. Cela signifie que l'approche DisTrO peut entraîner des modèles avec une précision et une vitesse comparables, mais sans nécessiter de matériel coûteux à large bande passante.

Par exemple, lors du pré-entraînement d'un LLM de 1,2 milliard, DisTrO-AdamW a égalé les performances des méthodes traditionnelles tout en réduisant la bande passante requise de 74,4 Go à seulement 86,8 Mo par étape d'entraînement.

Implications pour la formation à l'IA

L'impact de DisTrO sur le paysage de l'IA pourrait être profond. En réduisant les frais généraux de communication, DisTrO permet l'entraînement décentralisé de grands modèles. Au lieu d'un centre de données doté de milliers de GPU et de commutateurs à grande vitesse, vous pourriez entraîner un modèle sur du matériel commercial distribué connecté via l'internet.

Il pourrait s'agir d'une communauté de personnes donnant accès à leur matériel informatique pour former un modèle. Imaginez des millions de PC inactifs ou des plates-formes d'extraction de bitcoins redondantes qui collaboreraient à l'entraînement d'un modèle open source. DisTrO rend cela possible, et il n'y a pratiquement aucun sacrifice en ce qui concerne le temps nécessaire pour former le modèle ou sa précision.

Nous Research admet qu'elle ne sait pas vraiment pourquoi son approche fonctionne si bien et que des recherches supplémentaires sont nécessaires pour déterminer si elle s'applique à des modèles plus importants.

Si c'est le cas, les modèles de formation massive pourraient ne plus être monopolisés par les grandes entreprises technologiques disposant des liquidités nécessaires à l'installation de grands centres de données. Elle pourrait également avoir un impact important en réduisant les coûts d'exploitation. l'impact sur l'environnement des centres de données gourmands en énergie et en eau.

Le concept de formation décentralisée pourrait également rendre certains aspects de la réglementation tels que La proposition de loi californienne SB 1047 sans objet. Le projet de loi prévoit des contrôles de sécurité supplémentaires pour les modèles dont la formation coûte plus de $100 millions d'euros.

Avec DisTrO, une communauté de personnes anonymes disposant d'un matériel distribué pourrait créer son propre "superordinateur" pour entraîner un modèle. Il pourrait également annuler le US Les efforts du gouvernement pour arrêter la Chine d'importer les GPU les plus puissants de NVIDIA.

Dans un monde où l'IA devient de plus en plus importante, DisTrO offre un aperçu d'un avenir où le développement de ces outils puissants est plus inclusif, durable et répandu.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation