Den anvendte AI-forskningsgruppe Nous Research har udviklet en træningsoptimering til AI-modeller, som kan ændre den måde, fremtidens AI-modeller bliver trænet på, dramatisk.
Traditionelt kræver træning af en AI-model massive datacentre fyldt med GPU'er som NVIDIAs H100'ere og højhastighedsforbindelser til at synkronisere gradient- og parameteropdateringer mellem GPU'erne.
Hvert træningstrin kræver store mængder data, der skal deles mellem tusindvis af GPU'er. Den nødvendige båndbredde betyder, at disse GPU'er skal være fastkoblede og fysisk tæt på hinanden. Med DisTrO har Nous Research måske fundet en måde at ændre det fuldstændigt på.
Når en model trænes, justerer en optimeringsalgoritme modellens parametre for at minimere tabsfunktionen. Tabsfunktionen måler forskellen mellem modellens forudsigelser og de faktiske resultater, og målet er at reducere dette tab så meget som muligt gennem iterativ træning.
DisTrO-AdamW er en variant af den populære AdamW-optimeringsalgoritme. DisTrO står for "Distributed Training Over-the-Internet" og hentyder til, hvad der gør den så speciel.
DisTrO-AdamW reducerer drastisk mængden af inter-GPU-kommunikation, der kræves under træningen af store neurale netværk. Og det sker uden at gå på kompromis med konvergenshastigheden eller nøjagtigheden af træningsprocessen.
I empiriske tests opnåede DisTrO-AdamW en 857x reduktion i inter-GPU-kommunikation. Det betyder, at DisTrO-tilgangen kan træne modeller med sammenlignelig nøjagtighed og hastighed, men uden behov for dyr hardware med høj båndbredde.
For eksempel matchede DisTrO-AdamW under prætræningen af en 1,2 milliarder LLM de traditionelle metoders ydeevne, samtidig med at den krævede båndbredde blev reduceret fra 74,4 GB til kun 86,8 MB pr. træningstrin.
Hvad nu, hvis man kunne bruge al verdens computerkraft til at træne en fælles open source AI-model?
Foreløbig rapport: https://t.co/b1XgJylsnV
Nous Research er stolte over at kunne offentliggøre en foreløbig rapport om DisTrO (Distributed Training Over-the-Internet), en familie af... pic.twitter.com/h2gQJ4m7lB
- Nous Research (@NousResearch) 26. august 2024
Konsekvenser for AI-træning
DisTrO's indvirkning på AI-landskabet kan være dybtgående. Ved at reducere kommunikationsomkostningerne giver DisTrO mulighed for decentral træning af store modeller. I stedet for et datacenter med tusindvis af GPU'er og højhastighedsswitche kan man træne en model på distribueret kommerciel hardware, der er forbundet via internettet.
Man kunne have et fællesskab af mennesker, der bidrog med adgang til deres computerhardware for at træne en model. Forestil dig millioner af inaktive pc'er eller overflødige Bitcoin-minerigge, der arbejder sammen om at træne en open source-model. DisTrO gør det muligt, og det går næsten ikke ud over tiden til at træne modellen eller dens nøjagtighed.
Nous Research indrømmer, at de ikke er helt sikre på, hvorfor deres tilgang fungerer så godt, og at der er brug for mere forskning for at se, om den kan skaleres til større modeller.
Hvis det sker, er det ikke længere sikkert, at Big Tech-virksomheder med penge til store datacentre har monopol på massive træningsmodeller. Det kan også have en stor indvirkning ved at reducere miljøpåvirkning af energi- og vandkrævende datacentre.
Konceptet med decentral træning kan også gøre nogle aspekter af regler som Californiens lovforslag SB 1047 Det kan diskuteres. Lovforslaget kræver yderligere sikkerhedstjek for modeller, der koster mere end $100 millioner at uddanne.
Med DisTrO kan et fællesskab af anonyme mennesker med distribueret hardware skabe deres egen "supercomputer" til at træne en model. Det kunne også ophæve US regeringens bestræbelser på at stoppe Kina fra at importere NVIDIA's mest kraftfulde GPU'er.
I en verden, hvor AI bliver stadig vigtigere, giver DisTrO et glimt af en fremtid, hvor udviklingen af disse kraftfulde værktøjer er mere inkluderende, bæredygtig og udbredt.