Fremtiden for AI-træning: DisTrO's banebrydende tilgang

27. august 2024

  • AI-forskningsgruppen Nous Research har udviklet en AI-træningsoptimering kaldet DisTrO
  • DisTrO gør det muligt at træne AI-modeller ved hjælp af kommerciel hardware over almindelige internetforbindelser
  • Decentral træning af store modeller kan reducere afhængigheden af dyre GPU-datacentre

Den anvendte AI-forskningsgruppe Nous Research har udviklet en træningsoptimering til AI-modeller, som kan ændre den måde, fremtidens AI-modeller bliver trænet på, dramatisk.

Traditionelt kræver træning af en AI-model massive datacentre fyldt med GPU'er som NVIDIAs H100'ere og højhastighedsforbindelser til at synkronisere gradient- og parameteropdateringer mellem GPU'erne.

Hvert træningstrin kræver store mængder data, der skal deles mellem tusindvis af GPU'er. Den nødvendige båndbredde betyder, at disse GPU'er skal være fastkoblede og fysisk tæt på hinanden. Med DisTrO har Nous Research måske fundet en måde at ændre det fuldstændigt på.

Når en model trænes, justerer en optimeringsalgoritme modellens parametre for at minimere tabsfunktionen. Tabsfunktionen måler forskellen mellem modellens forudsigelser og de faktiske resultater, og målet er at reducere dette tab så meget som muligt gennem iterativ træning.

DisTrO-AdamW er en variant af den populære AdamW-optimeringsalgoritme. DisTrO står for "Distributed Training Over-the-Internet" og hentyder til, hvad der gør den så speciel.

DisTrO-AdamW reducerer drastisk mængden af inter-GPU-kommunikation, der kræves under træningen af store neurale netværk. Og det sker uden at gå på kompromis med konvergenshastigheden eller nøjagtigheden af træningsprocessen.

I empiriske tests opnåede DisTrO-AdamW en 857x reduktion i inter-GPU-kommunikation. Det betyder, at DisTrO-tilgangen kan træne modeller med sammenlignelig nøjagtighed og hastighed, men uden behov for dyr hardware med høj båndbredde.

For eksempel matchede DisTrO-AdamW under prætræningen af en 1,2 milliarder LLM de traditionelle metoders ydeevne, samtidig med at den krævede båndbredde blev reduceret fra 74,4 GB til kun 86,8 MB pr. træningstrin.

Konsekvenser for AI-træning

DisTrO's indvirkning på AI-landskabet kan være dybtgående. Ved at reducere kommunikationsomkostningerne giver DisTrO mulighed for decentral træning af store modeller. I stedet for et datacenter med tusindvis af GPU'er og højhastighedsswitche kan man træne en model på distribueret kommerciel hardware, der er forbundet via internettet.

Man kunne have et fællesskab af mennesker, der bidrog med adgang til deres computerhardware for at træne en model. Forestil dig millioner af inaktive pc'er eller overflødige Bitcoin-minerigge, der arbejder sammen om at træne en open source-model. DisTrO gør det muligt, og det går næsten ikke ud over tiden til at træne modellen eller dens nøjagtighed.

Nous Research indrømmer, at de ikke er helt sikre på, hvorfor deres tilgang fungerer så godt, og at der er brug for mere forskning for at se, om den kan skaleres til større modeller.

Hvis det sker, er det ikke længere sikkert, at Big Tech-virksomheder med penge til store datacentre har monopol på massive træningsmodeller. Det kan også have en stor indvirkning ved at reducere miljøpåvirkning af energi- og vandkrævende datacentre.

Konceptet med decentral træning kan også gøre nogle aspekter af regler som Californiens lovforslag SB 1047 Det kan diskuteres. Lovforslaget kræver yderligere sikkerhedstjek for modeller, der koster mere end $100 millioner at uddanne.

Med DisTrO kan et fællesskab af anonyme mennesker med distribueret hardware skabe deres egen "supercomputer" til at træne en model. Det kunne også ophæve US regeringens bestræbelser på at stoppe Kina fra at importere NVIDIA's mest kraftfulde GPU'er.

I en verden, hvor AI bliver stadig vigtigere, giver DisTrO et glimt af en fremtid, hvor udviklingen af disse kraftfulde værktøjer er mere inkluderende, bæredygtig og udbredt.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser