Forskningsgruppen Nous Research har utvecklat en optimerare för träning av AI-modeller som dramatiskt kan förändra hur framtidens AI-modeller kommer att tränas.
Traditionellt kräver träning av en AI-modell massiva datacenter fullpackade med GPU:er som NVIDIAs H100 och höghastighetsinterconnects för att synkronisera gradient- och parameteruppdateringar mellan GPU:er.
Varje träningssteg kräver att stora mängder data delas mellan tusentals GPU:er. Den bandbredd som krävs innebär att dessa GPU:er måste vara hårdkopplade och fysiskt nära varandra. Med DisTrO kan Nous Research ha hittat ett sätt att ändra detta helt och hållet.
När en modell tränas justerar en optimeringsalgoritm modellens parametrar för att minimera förlustfunktionen. Förlustfunktionen mäter skillnaden mellan modellens förutsägelser och de faktiska utfallen, och målet är att minska denna förlust så mycket som möjligt genom iterativ träning.
DisTrO-AdamW är en variant av den populära AdamW-optimeringsalgoritmen. DisTrO står för "Distributed Training Over-the-Internet" och ger en antydan om vad som gör den så speciell.
DisTrO-AdamW minskar drastiskt den mängd kommunikation mellan GPU:er som krävs vid träning av stora neurala nätverk. Och detta utan att offra konvergenshastigheten eller noggrannheten i träningsprocessen.
I empiriska tester uppnådde DisTrO-AdamW en 857-faldig minskning av inter-GPU-kommunikationen. Detta innebär att DisTrO-metoden kan träna modeller med jämförbar noggrannhet och hastighet men utan behov av dyr hårdvara med hög bandbredd.
Till exempel, under förträningen av en 1,2 miljarder LLM matchade DisTrO-AdamW prestandan hos traditionella metoder samtidigt som den nödvändiga bandbredden minskade från 74,4 GB till bara 86,8 MB per träningssteg.
Tänk om du kunde använda all världens datorkraft för att träna en gemensam AI-modell med öppen källkod?
Preliminär rapport: https://t.co/b1XgJylsnV
Nous Research är stolta över att kunna presentera en preliminär rapport om DisTrO (Distributed Training Over-the-Internet), en familj av... pic.twitter.com/h2gQJ4m7lB
- Nous Research (@NousResearch) 26 augusti 2024
Konsekvenser för AI-utbildning
DisTrO:s inverkan på AI-landskapet kan bli djupgående. Genom att minska kommunikationsomkostnaderna gör DisTrO det möjligt att decentralisera träningen av stora modeller. Istället för ett datacenter med tusentals GPU:er och höghastighetsswitchar kan du träna en modell på distribuerad kommersiell hårdvara som är ansluten via internet.
Du skulle kunna ha en gemenskap av människor som bidrar med tillgång till sin datorhårdvara för att träna en modell. Föreställ dig miljontals lediga datorer eller redundanta Bitcoin-gruvriggar som arbetar tillsammans för att träna en öppen källkodsmodell. DisTrO gör det möjligt, och det finns knappast någon uppoffring i tiden för att träna modellen eller dess noggrannhet.
Nous Research medger att de inte riktigt vet varför deras metod fungerar så bra och att mer forskning behövs för att se om den kan skalas upp till större modeller.
Om så sker kan det hända att utbildning av massiva modeller inte längre monopoliseras av stora teknikföretag med de pengar som krävs för stora datacenter. Det skulle också kunna ha en stor inverkan genom att minska miljöpåverkan av energi- och vattenkrävande datacenter.
Konceptet med decentraliserad utbildning kan också göra vissa aspekter av regler som Kaliforniens föreslagna lagförslag SB 1047 moot. Lagförslaget kräver ytterligare säkerhetskontroller för modeller som kostar mer än $100m att träna.
Med DisTrO skulle en grupp anonyma personer med distribuerad hårdvara kunna skapa en egen "superdator" för att träna en modell. Det skulle också kunna förneka US regeringens ansträngningar att stoppa Kinas från att importera NVIDIA:s mest kraftfulla GPU:er.
I en värld där AI blir allt viktigare ger DisTrO en glimt av en framtid där utvecklingen av dessa kraftfulla verktyg är mer inkluderande, hållbar och utbredd.