Die Zukunft des KI-Trainings: Der bahnbrechende Ansatz von DisTrO

27. August 2024

  • Die KI-Forschungsgruppe Nous Research entwickelte einen KI-Trainingsoptimierer namens DisTrO
  • DisTrO ermöglicht das Training von KI-Modellen mit kommerzieller Hardware über normale Internetverbindungen
  • Dezentralisiertes Training von großen Modellen könnte die Abhängigkeit von teuren GPU-Rechenzentren verringern

Die Forschungsgruppe für angewandte KI Nous Research hat einen Optimierer für das Training von KI-Modellen entwickelt, der die Art und Weise, wie KI-Modelle in Zukunft trainiert werden, grundlegend verändern könnte.

Für das Training eines KI-Modells sind in der Regel riesige Rechenzentren erforderlich, die mit Grafikprozessoren wie den H100 von NVIDIA und Hochgeschwindigkeitsverbindungen zur Synchronisierung von Gradienten- und Parameteraktualisierungen zwischen den GPUs ausgestattet sind.

Jeder Trainingsschritt erfordert große Datenmengen, die zwischen Tausenden von GPUs ausgetauscht werden müssen. Die erforderliche Bandbreite bedeutet, dass diese GPUs fest verdrahtet und räumlich nahe beieinander sein müssen. Mit DisTrO hat Nous Research möglicherweise einen Weg gefunden, dies vollständig zu ändern.

Während ein Modell trainiert wird, passt ein Optimierungsalgorithmus die Parameter des Modells an, um die Verlustfunktion zu minimieren. Die Verlustfunktion misst die Differenz zwischen den Vorhersagen des Modells und den tatsächlichen Ergebnissen, und das Ziel ist es, diesen Verlust durch iteratives Training so weit wie möglich zu reduzieren.

DisTrO-AdamW ist eine Variante des beliebten AdamW-Optimierungsalgorithmus. DisTrO steht für "Distributed Training Over-the-Internet" und deutet an, was ihn so besonders macht.

DisTrO-AdamW reduziert drastisch den Umfang der Inter-GPU-Kommunikation, die beim Training großer neuronaler Netze erforderlich ist. Und das ohne Einbußen bei der Konvergenzrate oder der Genauigkeit des Trainingsprozesses.

In empirischen Tests erreichte DisTrO-AdamW eine 857-fache Reduzierung der Kommunikation zwischen den GPUs. Dies bedeutet, dass der DisTrO-Ansatz Modelle mit vergleichbarer Genauigkeit und Geschwindigkeit trainieren kann, ohne dass teure Hardware mit hoher Bandbreite benötigt wird.

So erreichte DisTrO-AdamW beim Pre-Training eines 1,2 Milliarden LLM die Leistung herkömmlicher Methoden und reduzierte gleichzeitig die erforderliche Bandbreite von 74,4 GB auf nur 86,8 MB pro Trainingsschritt.

Auswirkungen auf das AI-Training

Die Auswirkungen von DisTrO auf die KI-Landschaft könnten tiefgreifend sein. Durch die Reduzierung des Kommunikations-Overheads ermöglicht DisTrO das dezentrale Training großer Modelle. Anstelle eines Rechenzentrums mit Tausenden von GPUs und Hochgeschwindigkeits-Switches könnte man ein Modell auf verteilter kommerzieller Hardware trainieren, die über das Internet verbunden ist.

Sie könnten eine Gemeinschaft von Menschen haben, die Zugang zu ihrer Computerhardware gewähren, um ein Modell zu trainieren. Stellen Sie sich vor, Millionen ungenutzter PCs oder redundanter Bitcoin-Mining-Anlagen arbeiten zusammen, um ein Open-Source-Modell zu trainieren. DisTrO macht das möglich, und es gibt kaum Einbußen bei der Zeit zum Trainieren des Modells oder seiner Genauigkeit.

Nous Research räumt ein, dass sie nicht genau wissen, warum ihr Ansatz so gut funktioniert, und dass weitere Untersuchungen erforderlich sind, um zu sehen, ob er sich auf größere Modelle übertragen lässt.

Wenn dies der Fall ist, könnte die Ausbildung massiver Modelle nicht länger von großen Technologieunternehmen monopolisiert werden, die über das nötige Kapital für große Rechenzentren verfügen. Es könnte auch einen großen Einfluss haben, indem es die Umweltauswirkungen von energie- und wasserintensiven Rechenzentren.

Das Konzept der dezentralisierten Ausbildung könnte auch dazu führen, dass einige Aspekte von Vorschriften wie Kaliforniens Gesetzesvorschlag SB 1047 strittig. Der Gesetzentwurf sieht zusätzliche Sicherheitsprüfungen für Modelle vor, deren Ausbildung mehr als $100 Mio. kostet.

Mit DisTrO könnte eine Gemeinschaft von anonymen Personen mit verteilter Hardware einen eigenen "Supercomputer" schaffen, um ein Modell zu trainieren. Es könnte auch das Problem der US die Bemühungen der Regierung, China zu stoppen von der Einfuhr der leistungsstärksten Grafikprozessoren von NVIDIA.

In einer Welt, in der künstliche Intelligenz immer wichtiger wird, bietet DisTrO einen Ausblick auf eine Zukunft, in der die Entwicklung dieser leistungsstarken Werkzeuge umfassender, nachhaltiger und weiter verbreitet ist.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen