El grupo de investigación en IA aplicada Nous Research ha desarrollado un optimizador de entrenamiento de modelos de IA que podría cambiar radicalmente la forma en que se entrenarán los modelos de IA del futuro.
Tradicionalmente, el entrenamiento de un modelo de IA requiere centros de datos masivos repletos de GPU como las H100 de NVIDIA e interconexiones de alta velocidad para sincronizar las actualizaciones de gradientes y parámetros entre las GPU.
Cada paso de entrenamiento requiere compartir grandes cantidades de datos entre miles de GPU. El ancho de banda necesario significa que estas GPU deben estar conectadas y físicamente cerca unas de otras. Con DisTrO, Nous Research puede haber encontrado la forma de cambiar esta situación por completo.
A medida que se entrena un modelo, un algoritmo optimizador ajusta los parámetros del modelo para minimizar la función de pérdida. La función de pérdida mide la diferencia entre las predicciones del modelo y los resultados reales, y el objetivo es reducir esta pérdida lo máximo posible mediante un entrenamiento iterativo.
DisTrO-AdamW es una variación del popular algoritmo optimizador AdamW. DisTrO son las siglas de "Distributed Training Over-the-Internet" (formación distribuida a través de Internet).
DisTrO-AdamW reduce drásticamente la cantidad de comunicación entre GPU necesaria durante el entrenamiento de grandes redes neuronales. Y lo hace sin sacrificar la velocidad de convergencia ni la precisión del proceso de entrenamiento.
En pruebas empíricas, DisTrO-AdamW logró una reducción de 857 veces en la comunicación entre GPU. Esto significa que el enfoque DisTrO puede entrenar modelos con una precisión y velocidad comparables, pero sin necesidad de hardware caro y de gran ancho de banda.
Por ejemplo, durante el preentrenamiento de un LLM de 1.200 millones, DisTrO-AdamW igualó el rendimiento de los métodos tradicionales al tiempo que reducía el ancho de banda necesario de 74,4 GB a sólo 86,8 MB por paso de entrenamiento.
¿Y si se pudiera utilizar toda la potencia de cálculo del mundo para entrenar un modelo de IA compartido y de código abierto?
Informe preliminar: https://t.co/b1XgJylsnV
Nous Research se enorgullece de publicar un informe preliminar sobre DisTrO (Distributed Training Over-the-Internet) una familia de... pic.twitter.com/h2gQJ4m7lB
- Nous Research (@NousResearch) 26 de agosto de 2024
Implicaciones para la formación en IA
El impacto de DisTrO en el panorama de la IA podría ser profundo. Al reducir la sobrecarga de comunicación, DisTrO permite el entrenamiento descentralizado de grandes modelos. En lugar de un centro de datos con miles de GPU y conmutadores de alta velocidad, se podría entrenar un modelo en hardware comercial distribuido conectado a través de Internet.
Podrías tener una comunidad de personas que contribuyeran con acceso a su hardware informático para entrenar un modelo. Imagine millones de ordenadores inactivos o equipos de minería de Bitcoin redundantes trabajando juntos para entrenar un modelo de código abierto. DisTrO lo hace posible, y apenas se sacrifica el tiempo necesario para entrenar el modelo o su precisión.
Nous Research admite que no sabe muy bien por qué su método funciona tan bien y que se necesita más investigación para ver si se adapta a modelos más grandes.
Si lo consigue, los modelos de formación masiva podrían dejar de estar monopolizados por las grandes empresas tecnológicas con el dinero necesario para grandes centros de datos. También podría tener un gran impacto al reducir la impacto medioambiental de centros de datos que consumen mucha energía y agua.
El concepto de formación descentralizada también podría hacer que algunos aspectos de la normativa como Proyecto de ley SB 1047 de California discutible. El proyecto de ley exige controles de seguridad adicionales para los modelos cuya formación cueste más de $100m.
Con DisTrO, una comunidad de personas anónimas con hardware distribuido podría crear un "superordenador" propio para entrenar un modelo. También podría anular la US esfuerzos del gobierno para detener a China de importar las GPU más potentes de NVIDIA.
En un mundo en el que la IA es cada vez más importante, DisTrO ofrece un atisbo de un futuro en el que el desarrollo de estas potentes herramientas sea más integrador, sostenible y generalizado.