El futuro de la formación en IA: La innovadora estrategia de DisTrO

27 de agosto de 2024

  • El grupo de investigación en IA Nous Research ha desarrollado un optimizador de entrenamiento de IA llamado DisTrO
  • DisTrO permite entrenar modelos de inteligencia artificial con hardware comercial a través de conexiones normales a Internet.
  • El entrenamiento descentralizado de grandes modelos podría reducir la dependencia de los costosos centros de datos GPU

El grupo de investigación en IA aplicada Nous Research ha desarrollado un optimizador de entrenamiento de modelos de IA que podría cambiar radicalmente la forma en que se entrenarán los modelos de IA del futuro.

Tradicionalmente, el entrenamiento de un modelo de IA requiere centros de datos masivos repletos de GPU como las H100 de NVIDIA e interconexiones de alta velocidad para sincronizar las actualizaciones de gradientes y parámetros entre las GPU.

Cada paso de entrenamiento requiere compartir grandes cantidades de datos entre miles de GPU. El ancho de banda necesario significa que estas GPU deben estar conectadas y físicamente cerca unas de otras. Con DisTrO, Nous Research puede haber encontrado la forma de cambiar esta situación por completo.

A medida que se entrena un modelo, un algoritmo optimizador ajusta los parámetros del modelo para minimizar la función de pérdida. La función de pérdida mide la diferencia entre las predicciones del modelo y los resultados reales, y el objetivo es reducir esta pérdida lo máximo posible mediante un entrenamiento iterativo.

DisTrO-AdamW es una variación del popular algoritmo optimizador AdamW. DisTrO son las siglas de "Distributed Training Over-the-Internet" (formación distribuida a través de Internet).

DisTrO-AdamW reduce drásticamente la cantidad de comunicación entre GPU necesaria durante el entrenamiento de grandes redes neuronales. Y lo hace sin sacrificar la velocidad de convergencia ni la precisión del proceso de entrenamiento.

En pruebas empíricas, DisTrO-AdamW logró una reducción de 857 veces en la comunicación entre GPU. Esto significa que el enfoque DisTrO puede entrenar modelos con una precisión y velocidad comparables, pero sin necesidad de hardware caro y de gran ancho de banda.

Por ejemplo, durante el preentrenamiento de un LLM de 1.200 millones, DisTrO-AdamW igualó el rendimiento de los métodos tradicionales al tiempo que reducía el ancho de banda necesario de 74,4 GB a sólo 86,8 MB por paso de entrenamiento.

Implicaciones para la formación en IA

El impacto de DisTrO en el panorama de la IA podría ser profundo. Al reducir la sobrecarga de comunicación, DisTrO permite el entrenamiento descentralizado de grandes modelos. En lugar de un centro de datos con miles de GPU y conmutadores de alta velocidad, se podría entrenar un modelo en hardware comercial distribuido conectado a través de Internet.

Podrías tener una comunidad de personas que contribuyeran con acceso a su hardware informático para entrenar un modelo. Imagine millones de ordenadores inactivos o equipos de minería de Bitcoin redundantes trabajando juntos para entrenar un modelo de código abierto. DisTrO lo hace posible, y apenas se sacrifica el tiempo necesario para entrenar el modelo o su precisión.

Nous Research admite que no sabe muy bien por qué su método funciona tan bien y que se necesita más investigación para ver si se adapta a modelos más grandes.

Si lo consigue, los modelos de formación masiva podrían dejar de estar monopolizados por las grandes empresas tecnológicas con el dinero necesario para grandes centros de datos. También podría tener un gran impacto al reducir la impacto medioambiental de centros de datos que consumen mucha energía y agua.

El concepto de formación descentralizada también podría hacer que algunos aspectos de la normativa como Proyecto de ley SB 1047 de California discutible. El proyecto de ley exige controles de seguridad adicionales para los modelos cuya formación cueste más de $100m.

Con DisTrO, una comunidad de personas anónimas con hardware distribuido podría crear un "superordenador" propio para entrenar un modelo. También podría anular la US esfuerzos del gobierno para detener a China de importar las GPU más potentes de NVIDIA.

En un mundo en el que la IA es cada vez más importante, DisTrO ofrece un atisbo de un futuro en el que el desarrollo de estas potentes herramientas sea más integrador, sostenible y generalizado.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales