O futuro da formação em IA: A abordagem revolucionária da DisTRO

27 de agosto de 2024

  • O grupo de investigação de IA Nous Research desenvolveu um optimizador de treino de IA chamado DisTRO
  • O DisTRO torna possível treinar modelos de IA utilizando hardware comercial através de ligações normais à Internet
  • O treino descentralizado de modelos de grandes dimensões pode reduzir a dependência de centros de dados de GPU dispendiosos

O grupo de investigação de IA aplicada Nous Research desenvolveu um optimizador de treino de modelos de IA que poderá mudar radicalmente a forma como os modelos de IA do futuro serão treinados.

Tradicionalmente, o treino de um modelo de IA requer centros de dados maciços repletos de GPUs, como as H100 da NVIDIA, e interligações de alta velocidade para sincronizar actualizações de gradientes e parâmetros entre GPUs.

Cada etapa de treino requer a partilha de grandes quantidades de dados entre milhares de GPUs. A largura de banda necessária significa que estas GPUs precisam de estar ligadas por cabo e fisicamente próximas umas das outras. Com o DisTRO, a Nous Research pode ter encontrado uma forma de mudar isso completamente.

À medida que um modelo é treinado, um algoritmo optimizador ajusta os parâmetros do modelo para minimizar a função de perda. A função de perda mede a diferença entre as previsões do modelo e os resultados reais, e o objetivo é reduzir esta perda tanto quanto possível através da formação iterativa.

DisTrO-AdamW é uma variação do popular algoritmo optimizador AdamW. DisTrO significa "Distributed Training Over-the-Internet" e indica o que o torna tão especial.

O DisTrO-AdamW reduz drasticamente a quantidade de comunicação inter-GPU necessária durante o treinamento de grandes redes neurais. E faz isso sem sacrificar a taxa de convergência ou a precisão do processo de treinamento.

Em testes empíricos, o DisTrO-AdamW conseguiu uma redução de 857x na comunicação entre GPUs. Isto significa que a abordagem DisTrO pode treinar modelos com precisão e velocidade comparáveis, mas sem a necessidade de hardware dispendioso e de elevada largura de banda.

Por exemplo, durante o pré-treino de um LLM de 1,2 mil milhões, o DisTrO-AdamW igualou o desempenho dos métodos tradicionais, reduzindo a largura de banda necessária de 74,4 GB para apenas 86,8 MB por passo de treino.

Implicações para a formação em IA

O impacto do DisTrO no cenário da IA pode ser profundo. Ao reduzir a sobrecarga de comunicação, o DisTRO permite o treinamento descentralizado de grandes modelos. Em vez de um centro de dados com milhares de GPUs e comutadores de alta velocidade, é possível treinar um modelo em hardware comercial distribuído ligado através da Internet.

Poderíamos ter uma comunidade de pessoas a contribuir com acesso ao seu hardware informático para treinar um modelo. Imagine milhões de PCs inactivos ou plataformas redundantes de extração de Bitcoin a trabalhar em conjunto para treinar um modelo de código aberto. O DisTRO torna isso possível, e não há praticamente nenhum sacrifício no tempo de treino do modelo ou na sua precisão.

A Nous Research admite que não sabe ao certo porque é que a sua abordagem funciona tão bem e que é necessária mais investigação para ver se pode ser aplicada a modelos maiores.

Se isso acontecer, a formação de modelos maciços poderá deixar de ser monopolizada pelas grandes empresas de tecnologia com o dinheiro necessário para grandes centros de dados. Poderá também ter um grande impacto ao reduzir o impacto ambiental de centros de dados que consomem muita energia e água.

O conceito de formação descentralizada também poderia tornar alguns aspectos dos regulamentos como Proposta de lei SB 1047 da Califórnia discutível. O projeto de lei prevê a realização de controlos de segurança adicionais para os modelos cuja formação custe mais de $100m.

Com o DisTRO, uma comunidade de pessoas anónimas com hardware distribuído poderia criar o seu próprio "supercomputador" para treinar um modelo. Também poderia negar a US esforços do governo para impedir a China de importar as GPUs mais potentes da NVIDIA.

Num mundo em que a IA está a tornar-se cada vez mais importante, o DisTrO oferece um vislumbre de um futuro em que o desenvolvimento destas poderosas ferramentas é mais inclusivo, sustentável e generalizado.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições