Le groupe de recherche en IA appliquée Nous Research a mis au point un optimiseur de formation de modèles d'IA qui pourrait changer radicalement la façon dont les modèles d'IA du futur seront formés.
Traditionnellement, l'entraînement d'un modèle d'IA nécessite des centres de données massifs équipés de GPU tels que les H100 de NVIDIA, ainsi que des interconnexions à haut débit pour synchroniser les mises à jour du gradient et des paramètres entre les GPU.
Chaque étape de formation nécessite le partage de grandes quantités de données entre des milliers de GPU. La bande passante requise implique que ces GPU soient câblés et physiquement proches les uns des autres. Avec DisTrO, Nous Research a peut-être trouvé un moyen de changer complètement cette situation.
Lors de l'apprentissage d'un modèle, un algorithme optimiseur ajuste les paramètres du modèle afin de minimiser la fonction de perte. La fonction de perte mesure la différence entre les prédictions du modèle et les résultats réels, et l'objectif est de réduire cette perte autant que possible grâce à une formation itérative.
DisTrO-AdamW est une variante de l'algorithme populaire de l'optimiseur AdamW. DisTrO est l'acronyme de "Distributed Training Over-the-Internet" (formation distribuée sur Internet) et indique ce qui le rend si spécial.
DisTrO-AdamW réduit considérablement la quantité de communication inter-GPU requise lors de l'apprentissage de grands réseaux neuronaux. Et ce, sans sacrifier le taux de convergence ou la précision du processus d'apprentissage.
Lors de tests empiriques, DisTrO-AdamW a permis de réduire de 857 fois la communication inter-GPU. Cela signifie que l'approche DisTrO peut entraîner des modèles avec une précision et une vitesse comparables, mais sans nécessiter de matériel coûteux à large bande passante.
Par exemple, lors du pré-entraînement d'un LLM de 1,2 milliard, DisTrO-AdamW a égalé les performances des méthodes traditionnelles tout en réduisant la bande passante requise de 74,4 Go à seulement 86,8 Mo par étape d'entraînement.
Et si vous pouviez utiliser toute la puissance de calcul du monde pour former un modèle d'IA partagé et libre ?
Rapport préliminaire : https://t.co/b1XgJylsnV
Nous Research est fier de publier un rapport préliminaire sur DisTrO (Distributed Training Over-the-Internet), une famille de... pic.twitter.com/h2gQJ4m7lB
- Nous Research (@NousResearch) 26 août 2024
Implications pour la formation à l'IA
L'impact de DisTrO sur le paysage de l'IA pourrait être profond. En réduisant les frais généraux de communication, DisTrO permet l'entraînement décentralisé de grands modèles. Au lieu d'un centre de données doté de milliers de GPU et de commutateurs à grande vitesse, vous pourriez entraîner un modèle sur du matériel commercial distribué connecté via l'internet.
Il pourrait s'agir d'une communauté de personnes donnant accès à leur matériel informatique pour former un modèle. Imaginez des millions de PC inactifs ou des plates-formes d'extraction de bitcoins redondantes qui collaboreraient à l'entraînement d'un modèle open source. DisTrO rend cela possible, et il n'y a pratiquement aucun sacrifice en ce qui concerne le temps nécessaire pour former le modèle ou sa précision.
Nous Research admet qu'elle ne sait pas vraiment pourquoi son approche fonctionne si bien et que des recherches supplémentaires sont nécessaires pour déterminer si elle s'applique à des modèles plus importants.
Si c'est le cas, les modèles de formation massive pourraient ne plus être monopolisés par les grandes entreprises technologiques disposant des liquidités nécessaires à l'installation de grands centres de données. Elle pourrait également avoir un impact important en réduisant les coûts d'exploitation. l'impact sur l'environnement des centres de données gourmands en énergie et en eau.
Le concept de formation décentralisée pourrait également rendre certains aspects de la réglementation tels que La proposition de loi californienne SB 1047 sans objet. Le projet de loi prévoit des contrôles de sécurité supplémentaires pour les modèles dont la formation coûte plus de $100 millions d'euros.
Avec DisTrO, une communauté de personnes anonymes disposant d'un matériel distribué pourrait créer son propre "superordinateur" pour entraîner un modèle. Il pourrait également annuler le US Les efforts du gouvernement pour arrêter la Chine d'importer les GPU les plus puissants de NVIDIA.
Dans un monde où l'IA devient de plus en plus importante, DisTrO offre un aperçu d'un avenir où le développement de ces outils puissants est plus inclusif, durable et répandu.