De toekomst van AI-training: DisTrO's spelveranderende aanpak

27 augustus 2024

  • AI-onderzoeksgroep Nous Research ontwikkelde een AI-training optimizer genaamd DisTrO
  • DisTrO maakt het mogelijk om AI-modellen te trainen met behulp van commerciële hardware via gewone internetverbindingen
  • Gedecentraliseerde training van grote modellen kan de afhankelijkheid van dure GPU-datacenters verminderen

Toegepaste AI-onderzoeksgroep Nous Research heeft een AI-model training optimizer ontwikkeld die de manier waarop AI-modellen van de toekomst worden getraind drastisch zou kunnen veranderen.

Traditioneel vereist het trainen van een AI-model enorme datacenters vol GPU's zoals de H100's van NVIDIA en snelle interconnecties om gradiënt- en parameterupdates tussen GPU's te synchroniseren.

Elke trainingsstap vereist enorme hoeveelheden gegevens die moeten worden gedeeld tussen duizenden GPU's. De vereiste bandbreedte betekent dat deze GPU's hardwired en fysiek dicht bij elkaar moeten zijn. De vereiste bandbreedte betekent dat deze GPU's hardwired en fysiek dicht bij elkaar moeten zijn. Met DisTrO heeft Nous Research misschien een manier gevonden om dat volledig te veranderen.

Terwijl een model wordt getraind, past een optimalisatiealgoritme de parameters van het model aan om de verliesfunctie te minimaliseren. De verliesfunctie meet het verschil tussen de voorspellingen van het model en de werkelijke uitkomsten en het doel is om dit verlies zo veel mogelijk te beperken door iteratieve training.

DisTrO-AdamW is een variatie op het populaire AdamW optimizer algoritme. DisTrO staat voor "Distributed Training Over-the-Internet" en geeft aan wat het zo speciaal maakt.

DisTrO-AdamW vermindert de hoeveelheid inter-GPU communicatie die nodig is tijdens het trainen van grote neurale netwerken drastisch. En het doet dit zonder de convergentiesnelheid of nauwkeurigheid van het trainingsproces op te offeren.

In empirische tests behaalde DisTrO-AdamW een 857x reductie in inter-GPU communicatie. Dit betekent dat de DisTrO aanpak modellen kan trainen met vergelijkbare nauwkeurigheid en snelheid, maar zonder de noodzaak van dure hardware met hoge bandbreedte.

Tijdens het voortrainen van een LLM van 1,2 miljard evenaarde DisTrO-AdamW bijvoorbeeld de prestaties van traditionele methoden, terwijl de benodigde bandbreedte werd teruggebracht van 74,4 GB tot slechts 86,8 MB per trainingsstap.

Implicaties voor AI-training

De impact van DisTrO op het AI-landschap kan ingrijpend zijn. Door de communicatie-overhead te verminderen, maakt DisTrO gedecentraliseerde training van grote modellen mogelijk. In plaats van een datacenter met duizenden GPU's en snelle switches, zou je een model kunnen trainen op gedistribueerde commerciële hardware die verbonden is via het internet.

Je zou een gemeenschap van mensen kunnen hebben die toegang geven tot hun computerhardware om een model te trainen. Stel je miljoenen ongebruikte pc's of redundante Bitcoin mining rigs voor die samenwerken om een open source model te trainen. DisTrO maakt dat mogelijk en er wordt nauwelijks ingeleverd op de tijd om het model te trainen of de nauwkeurigheid ervan.

Nous Research geeft toe dat ze niet echt zeker weten waarom hun aanpak zo goed werkt en dat er meer onderzoek nodig is om te zien of het ook op grotere modellen kan worden toegepast.

Als dat lukt, worden massale trainingsmodellen misschien niet langer gemonopoliseerd door Big Tech-bedrijven met het geld dat nodig is voor grote datacenters. Het zou ook een grote impact kunnen hebben door het verminderen van de milieu-impact van energie- en waterverslindende datacenters.

Het concept van gedecentraliseerde training zou er ook voor kunnen zorgen dat sommige aspecten van regelgeving zoals Wetsvoorstel SB 1047 van Californië betwistbaar. Het wetsvoorstel vraagt om extra veiligheidscontroles voor modellen die meer dan $100m kosten om te trainen.

Met DisTrO zou een gemeenschap van anonieme mensen met gedistribueerde hardware een eigen 'supercomputer' kunnen maken om een model te trainen. Het zou ook de US inspanningen van de regering om China te stoppen van het importeren van NVIDIA's krachtigste GPU's.

In een wereld waarin AI steeds belangrijker wordt, biedt DisTrO een glimp van een toekomst waarin de ontwikkeling van deze krachtige hulpmiddelen meer inclusief, duurzaam en wijdverspreid is.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden