Framtiden för AI-utbildning: DisTrO:s revolutionerande metod

27 augusti 2024

  • AI-forskargruppen Nous Research utvecklade en AI-träningsoptimerare som heter DisTrO
  • DisTrO gör det möjligt att träna AI-modeller med kommersiell hårdvara via vanliga internetanslutningar
  • Decentraliserad träning av stora modeller kan minska beroendet av dyra GPU-datacenter

Forskningsgruppen Nous Research har utvecklat en optimerare för träning av AI-modeller som dramatiskt kan förändra hur framtidens AI-modeller kommer att tränas.

Traditionellt kräver träning av en AI-modell massiva datacenter fullpackade med GPU:er som NVIDIAs H100 och höghastighetsinterconnects för att synkronisera gradient- och parameteruppdateringar mellan GPU:er.

Varje träningssteg kräver att stora mängder data delas mellan tusentals GPU:er. Den bandbredd som krävs innebär att dessa GPU:er måste vara hårdkopplade och fysiskt nära varandra. Med DisTrO kan Nous Research ha hittat ett sätt att ändra detta helt och hållet.

När en modell tränas justerar en optimeringsalgoritm modellens parametrar för att minimera förlustfunktionen. Förlustfunktionen mäter skillnaden mellan modellens förutsägelser och de faktiska utfallen, och målet är att minska denna förlust så mycket som möjligt genom iterativ träning.

DisTrO-AdamW är en variant av den populära AdamW-optimeringsalgoritmen. DisTrO står för "Distributed Training Over-the-Internet" och ger en antydan om vad som gör den så speciell.

DisTrO-AdamW minskar drastiskt den mängd kommunikation mellan GPU:er som krävs vid träning av stora neurala nätverk. Och detta utan att offra konvergenshastigheten eller noggrannheten i träningsprocessen.

I empiriska tester uppnådde DisTrO-AdamW en 857-faldig minskning av inter-GPU-kommunikationen. Detta innebär att DisTrO-metoden kan träna modeller med jämförbar noggrannhet och hastighet men utan behov av dyr hårdvara med hög bandbredd.

Till exempel, under förträningen av en 1,2 miljarder LLM matchade DisTrO-AdamW prestandan hos traditionella metoder samtidigt som den nödvändiga bandbredden minskade från 74,4 GB till bara 86,8 MB per träningssteg.

Konsekvenser för AI-utbildning

DisTrO:s inverkan på AI-landskapet kan bli djupgående. Genom att minska kommunikationsomkostnaderna gör DisTrO det möjligt att decentralisera träningen av stora modeller. Istället för ett datacenter med tusentals GPU:er och höghastighetsswitchar kan du träna en modell på distribuerad kommersiell hårdvara som är ansluten via internet.

Du skulle kunna ha en gemenskap av människor som bidrar med tillgång till sin datorhårdvara för att träna en modell. Föreställ dig miljontals lediga datorer eller redundanta Bitcoin-gruvriggar som arbetar tillsammans för att träna en öppen källkodsmodell. DisTrO gör det möjligt, och det finns knappast någon uppoffring i tiden för att träna modellen eller dess noggrannhet.

Nous Research medger att de inte riktigt vet varför deras metod fungerar så bra och att mer forskning behövs för att se om den kan skalas upp till större modeller.

Om så sker kan det hända att utbildning av massiva modeller inte längre monopoliseras av stora teknikföretag med de pengar som krävs för stora datacenter. Det skulle också kunna ha en stor inverkan genom att minska miljöpåverkan av energi- och vattenkrävande datacenter.

Konceptet med decentraliserad utbildning kan också göra vissa aspekter av regler som Kaliforniens föreslagna lagförslag SB 1047 moot. Lagförslaget kräver ytterligare säkerhetskontroller för modeller som kostar mer än $100m att träna.

Med DisTrO skulle en grupp anonyma personer med distribuerad hårdvara kunna skapa en egen "superdator" för att träna en modell. Det skulle också kunna förneka US regeringens ansträngningar att stoppa Kinas från att importera NVIDIA:s mest kraftfulla GPU:er.

I en värld där AI blir allt viktigare ger DisTrO en glimt av en framtid där utvecklingen av dessa kraftfulla verktyg är mer inkluderande, hållbar och utbredd.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar