Fremtiden for AI-trening: DisTrOs banebrytende tilnærming

27. august 2024

  • AI-forskningsgruppen Nous Research har utviklet en AI-treningsoptimalisering kalt DisTrO
  • DisTrO gjør det mulig å trene AI-modeller ved hjelp av kommersiell maskinvare over vanlige internettforbindelser
  • Desentralisert opplæring av store modeller kan redusere avhengigheten av dyre GPU-datasentre

Forskergruppen Nous Research har utviklet en optimalisering av AI-modelltrening som kan endre måten fremtidens AI-modeller blir trent på, på en dramatisk måte.

Tradisjonelt krever opplæring av en AI-modell massive datasentre fullpakket med GPU-er, som NVIDIAs H100, og høyhastighetsforbindelser for å synkronisere gradient- og parameteroppdateringer mellom GPU-ene.

Hvert treningstrinn krever at enorme datamengder deles mellom tusenvis av GPU-er. Den nødvendige båndbredden betyr at disse GPU-ene må være fastkoblet og fysisk nær hverandre. Med DisTrO kan Nous Research ha funnet en måte å endre dette fullstendig på.

Etter hvert som en modell trenes opp, justerer en optimaliseringsalgoritme modellens parametere for å minimere tapsfunksjonen. Tapsfunksjonen måler forskjellen mellom modellens prediksjoner og de faktiske utfallene, og målet er å redusere dette tapet så mye som mulig gjennom iterativ trening.

DisTrO-AdamW er en variant av den populære AdamW-optimaliseringsalgoritmen. DisTrO står for "Distributed Training Over-the-Internet", og antyder hva som gjør den så spesiell.

DisTrO-AdamW reduserer drastisk mengden kommunikasjon mellom GPU-er som kreves under opplæring av store nevrale nettverk. Og dette skjer uten at det går ut over konvergenshastigheten eller nøyaktigheten i opplæringsprosessen.

I empiriske tester oppnådde DisTrO-AdamW en 857 ganger så stor reduksjon i kommunikasjonen mellom GPU-ene. Dette betyr at DisTrO-metoden kan trene opp modeller med sammenlignbar nøyaktighet og hastighet, men uten behov for dyr maskinvare med høy båndbredde.

For eksempel oppnådde DisTrO-AdamW samme ytelse som tradisjonelle metoder under forhåndstreningen av en 1,2 milliarder LLM, samtidig som den nødvendige båndbredden ble redusert fra 74,4 GB til bare 86,8 MB per treningstrinn.

Konsekvenser for AI-opplæring

DisTrO kan få stor innvirkning på AI-landskapet. Ved å redusere kommunikasjonsomkostningene muliggjør DisTrO desentralisert opplæring av store modeller. I stedet for et datasenter med tusenvis av GPU-er og høyhastighetssvitsjer, kan du trene opp en modell på distribuert kommersiell maskinvare som er koblet til via Internett.

Du kan ha et fellesskap av mennesker som bidrar med tilgang til maskinvaren sin for å trene opp en modell. Se for deg millioner av inaktive PC-er eller overflødige Bitcoin-gruverigger som jobber sammen for å trene opp en åpen kildekodemodell. DisTrO gjør det mulig, og det går nesten ikke ut over tiden det tar å trene opp modellen eller nøyaktigheten.

Nous Research innrømmer at de ikke er helt sikre på hvorfor metoden deres fungerer så godt, og at det trengs mer forskning for å se om den kan skaleres til større modeller.

Hvis den gjør det, kan det hende at opplæring i massive modeller ikke lenger blir monopolisert av Big Tech-selskaper med penger til å bygge store datasentre. Det kan også ha stor innvirkning ved å redusere miljøpåvirkning av energi- og vannslukende datasentre.

Konseptet med desentralisert opplæring kan også gjøre noen aspekter av regelverket som Californias lovforslag SB 1047 omstridt. Lovforslaget krever ekstra sikkerhetskontroller for modeller som koster mer enn $100 millioner å trene.

Med DisTrO kan et fellesskap av anonyme personer med distribuert maskinvare lage sin egen "superdatamaskin" for å trene opp en modell. Det kan også oppheve US regjeringens innsats for å stoppe Kinas fra å importere NVIDIAs kraftigste GPU-er.

I en verden der kunstig intelligens blir stadig viktigere, gir DisTrO et glimt av en fremtid der utviklingen av disse kraftfulle verktøyene er mer inkluderende, bærekraftig og utbredt.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser