Wissenschaftler der ETH Zürich fanden heraus, dass Large Language Models (LLM) nur einen kleinen Teil ihrer Neuronen für individuelle Schlussfolgerungen verwenden müssen. Ihr neuer Ansatz verspricht, LLMs viel schneller laufen zu lassen.
Um zu verstehen, wie sie es geschafft haben, die KI-Modelle zu beschleunigen, müssen wir eine grobe Vorstellung davon bekommen, wie ein KI-Sprachmodell technisch aufgebaut ist.
KI-Modelle wie GPT oder Llama bestehen aus Feedforward-Netzen, einer Art künstlicher neuronaler Netze.
Feedforward-Netzwerke (FF) sind in der Regel in Schichten organisiert, wobei jede Schicht von Neuronen Eingaben von der vorhergehenden Schicht erhält und ihre Ausgaben an die nächste Schicht sendet.
Dazu gehört die dichte Matrixmultiplikation (DMM), bei der jedes Neuron in der FF alle Eingaben der vorherigen Schicht berechnen muss. Und das ist der Grund Nvidia verkauft so viele seiner GPUs weil dieser Vorgang viel Rechenleistung erfordert.
Die Forscher verwendet Fast Feedforward Networks (FFF), um diesen Prozess wesentlich zu beschleunigen. Ein FFF nimmt jede Neuronenschicht, unterteilt sie in Blöcke und wählt dann nur die relevantesten Blöcke auf der Grundlage der Eingabe aus. Dieser Prozess läuft auf eine bedingte Matrixmultiplikation (CMM) hinaus.
Das bedeutet, dass nicht alle Neuronen einer Schicht an der Berechnung beteiligt sind, sondern nur ein sehr kleiner Teil.
Stellen Sie sich vor, Sie sortieren einen Stapel Post, um einen für Sie bestimmten Brief zu finden. Anstatt den Namen und die Adresse auf jedem einzelnen Brief zu lesen, könnten Sie sie zunächst nach Postleitzahlen sortieren und sich dann nur auf die Briefe für Ihr Gebiet konzentrieren.
Auf die gleiche Weise identifizieren FFFs nur die wenigen Neuronen, die für jede Berechnung erforderlich sind, was im Vergleich zu traditionellen FFs nur einen Bruchteil der erforderlichen Verarbeitung bedeutet.
Wie viel schneller?
Die Forscher testeten ihre Methode an einer Variante des BERT-Modells von Google, die sie UltraFastBERT nannten. UltraFastBERT besteht aus 4095 Neuronen, schaltet aber selektiv nur 12 Neuronen für jede Schichtinferenz ein.
Das bedeutet, dass UltraFastBERT etwa 0,03% seiner Neuronen für die Verarbeitung während der Inferenz benötigt, während beim regulären BERT 100% seiner Neuronen an der Berechnung beteiligt sein müssten.
Theoretisch bedeutet dies, dass UltraFastBERT 341x schneller ist als BERT oder GPT-3.
Warum sagen wir "theoretisch", wenn die Forscher uns versichern, dass ihre Methode funktioniert? Weil sie eine Softwareumgehung entwickeln mussten, damit ihr FFF mit BERT funktioniert, und bei realen Tests nur eine 78-fache Geschwindigkeitssteigerung erreicht haben.
Es ist ein Geheimnis
In dem Forschungspapier heißt es: "Die dichte Matrixmultiplikation ist die am meisten optimierte mathematische Operation in der Geschichte der Computertechnik. Es wurden enorme Anstrengungen unternommen, um Speicher, Chips, Befehlssätze und Software-Routinen zu entwickeln, die diese Operation so schnell wie möglich ausführen. Viele dieser Fortschritte wurden ... geheim gehalten und dem Endbenutzer nur über leistungsfähige, aber restriktive Programmierschnittstellen zugänglich gemacht."
Im Grunde genommen sagen sie, dass die Ingenieure, die herausgefunden haben, wie die für herkömmliche FF-Netze erforderliche Mathematik am effizientesten verarbeitet werden kann, ihre Low-Level-Software und Algorithmen geheim halten und keinen Einblick in ihren Code gewähren.
Wenn die Entwickler von Intel- oder Nvidia-Grafikprozessoren den Zugriff auf Low-Level-Code ermöglichen würden, um FFF-Netzwerke in KI-Modellen zu implementieren, könnte die 341-fache Geschwindigkeitssteigerung Realität werden.
Aber werden sie es tun? Wenn Sie Ihre Grafikprozessoren so entwickeln könnten, dass die Leute 99,7% weniger davon kaufen müssten, um die gleiche Rechenleistung zu erbringen, würden Sie es tun? Die Wirtschaft wird dabei ein gewisses Mitspracherecht haben, aber FFF-Netzwerke könnten den nächsten großen Sprung in der KI darstellen.