Mit der Veröffentlichung kleinerer und effizienterer KI-Modelle wie dem bahnbrechenden Mixtral 8x7B-Modell von Mistral sind die Konzepte "Mixture of Experts" (MoE) und "Sparsity" zu heißen Themen geworden.
Diese Begriffe haben sich aus dem Bereich komplexer KI-Forschungsarbeiten in Nachrichtenartikel verlagert, in denen über die rasche Verbesserung von Large Language Models (LLM) berichtet wird.
Glücklicherweise muss man kein Datenwissenschaftler sein, um eine Vorstellung davon zu haben, was MoE und Sparsity sind und warum diese Konzepte von großer Bedeutung sind.
Gemischte Experten
LLMs wie GPT-3 basieren auf einer dichten Netzarchitektur. Diese Modelle bestehen aus Schichten von neuronalen Netzen, bei denen jedes Neuron in einer Schicht mit jedem Neuron in der vorhergehenden und nachfolgenden Schicht verbunden ist.
Alle Neuronen sind sowohl am Training als auch an der Inferenz beteiligt, d. h. an der Generierung einer Antwort auf Ihre Eingabe. Diese Modelle eignen sich hervorragend für die Bewältigung einer Vielzahl von Aufgaben, verbrauchen aber viel Rechenleistung, da jeder Teil des Netzes an der Verarbeitung einer Eingabe beteiligt ist.
Ein Modell, das auf einer MoE-Architektur basiert, unterteilt die Schichten in eine bestimmte Anzahl von "Experten", wobei jeder Experte ein neuronales Netz ist, das auf bestimmte Funktionen trainiert wurde. Wenn Sie also ein Modell mit der Bezeichnung Mixtral 8x7B sehen, bedeutet dies, dass es 8 Expertenschichten mit jeweils 7 Milliarden Parametern hat.
Jeder Experte ist so ausgebildet, dass er einen bestimmten Aspekt des Gesamtproblems sehr gut beherrscht, ähnlich wie Spezialisten auf einem bestimmten Gebiet.
Nach der Aufforderung zerlegt ein Gating Network die Aufforderung in verschiedene Tokens und entscheidet, welcher Experte am besten geeignet ist, sie zu verarbeiten. Die Ergebnisse der einzelnen Experten werden dann kombiniert, um das endgültige Ergebnis zu erhalten.
Stellen Sie sich MoE als eine Gruppe von Handwerkern mit sehr spezifischen Fähigkeiten vor, die Ihre Hausrenovierung durchführen. Anstatt einen allgemeinen Handwerker (dichtes Netz) mit allen Arbeiten zu beauftragen, bitten Sie John, den Klempner, um die Sanitärarbeiten zu erledigen, und Peter, den Elektriker, um die Elektrik.
Diese Modelle sind schneller zu trainieren, da nicht das gesamte Modell für alle Aufgaben trainiert werden muss.
MoE-Modelle haben auch eine schnellere Inferenz im Vergleich zu dichten Modellen mit der gleichen Anzahl von Parametern. Dies ist der Grund Mixtral 8x7B mit insgesamt 56 Milliarden Parametern kann mit GPT-3.5, das 175 Milliarden Parameter hat, mithalten oder es sogar übertreffen.
Es gibt Gerüchte, dass GPT-4 verwendet eine MoE-Architektur mit 16 Experten, während Zwillinge verwendet eine dichte Architektur.
Sparsamkeit
Sparsamkeit bezieht sich auf die Idee, die Anzahl der aktiven Elemente in einem Modell, wie die Neuronen oder die Gewichte, zu reduzieren, ohne seine Leistung wesentlich zu beeinträchtigen.
Wenn die Eingabedaten für KI-Modelle, wie Texte oder Bilder, viele Nullen enthalten, verschwendet die Technik der spärlichen Datendarstellung keinen Aufwand mit der Speicherung der Nullen.
In einem spärlichen neuronalen Netz sind die Gewichte bzw. die Stärke der Verbindung zwischen den Neuronen oft gleich Null. Durch Sparsity werden diese Gewichte entfernt, so dass sie bei der Verarbeitung nicht berücksichtigt werden. Ein MoE-Modell ist natürlich auch deshalb spärlich, weil ein Experte an der Verarbeitung beteiligt sein kann, während der Rest untätig bleibt.
Sparsity kann zu Modellen führen, die weniger rechenintensiv sind und weniger Speicherplatz benötigen. Die KI-Modelle, die letztendlich auf Ihrem Gerät laufen, werden sich stark auf Sparsity stützen.
Man kann sich Sparsity so vorstellen, als würde man eine Bibliothek aufsuchen, um eine Antwort auf eine Frage zu finden. Wenn die Bibliothek Milliarden von Büchern hat, könnte man jedes Buch in der Bibliothek öffnen und schließlich relevante Antworten in einigen der Bücher finden. Das ist es, was ein nicht-sparsames Modell tut.
Wenn wir viele Bücher mit leeren Seiten oder irrelevanten Informationen aussortieren, ist es einfacher, die für unsere Frage relevanten Bücher zu finden, so dass wir weniger Bücher aufschlagen und die Antwort schneller finden.
Wenn Sie sich gerne über die neuesten KI-Entwicklungen auf dem Laufenden halten, dann werden Sie MoE und Sparsity immer häufiger sehen. LLMs werden bald viel kleiner und schneller werden.