Nieuwe aanpak kan grote taalmodellen 300x sneller maken

6 december 2023

Wetenschappers van ETH Zürich ontdekten dat Large Language Models (LLM) slechts een klein deel van hun neuronen hoeven te gebruiken voor individuele inferenties. Hun nieuwe aanpak belooft LLM's veel sneller te laten werken.

Om te beginnen begrijpen hoe ze erin slaagden om AI-modellen te versnellen, moeten we een ruw idee krijgen van enkele van de technische dingen waaruit een AI-taalmodel bestaat.

AI-modellen zoals GPT of Llama zijn opgebouwd uit feedforward netwerken, een soort kunstmatige neurale netwerken.

Feedforward netwerken (FF) zijn meestal georganiseerd in lagen, waarbij elke laag neuronen input ontvangt van de vorige laag en zijn output naar de volgende laag stuurt.

Hiervoor is een dichte matrixvermenigvuldiging (DMM) nodig, waarbij elk neuron in de FF berekeningen moet uitvoeren op alle inputs van de vorige laag. En dit is de reden waarom Nvidia verkoopt zo veel van zijn GPU's omdat dit proces veel rekenkracht kost.

De onderzoekers Fast Feedforward Networks (FFF) gebruikt om dit proces veel sneller te maken. Een FFF neemt elke laag neuronen, splitst deze op in blokken en selecteert vervolgens alleen de meest relevante blokken op basis van de invoer. Dit proces komt neer op het uitvoeren van voorwaardelijke matrixvermenigvuldiging (CMM).

Dit betekent dat niet alle neuronen van een laag betrokken zijn bij de berekening, maar slechts een heel klein deel.

Zie het als het sorteren van een stapel post om een brief te vinden die voor jou bedoeld is. In plaats van op elke brief de naam en het adres te lezen, kun je ze eerst sorteren op postcode en je dan alleen richten op de brieven voor jouw regio.

Op dezelfde manier identificeren FFF's slechts de paar neuronen die nodig zijn voor elke berekening, wat resulteert in slechts een fractie van de benodigde verwerking in vergelijking met traditionele FF's.

Hoeveel sneller?

De onderzoekers testten hun methode op een variant van Google's BERT-model dat ze UltraFastBERT noemden. UltraFastBERT bestaat uit 4095 neuronen, maar schakelt selectief slechts 12 neuronen in voor elke laaginferentie.

Dit betekent dat UltraFastBERT ongeveer 0.03% van zijn neuronen nodig heeft voor verwerking tijdens inferentie, terwijl gewone BERT 100% van zijn neuronen nodig heeft voor de berekening.

Theoretisch betekent dit dat UltraFastBERT 341x sneller zou zijn dan BERT of GPT-3.

Waarom zeggen we "theoretisch" als de onderzoekers ons verzekeren dat hun methode werkt? Omdat ze een software workaround moesten maken om hun FFF te laten werken met BERT en slechts een 78x verbetering in snelheid bereikten tijdens echte testen.

Het is een geheim

Het onderzoeksdocument legt uit dat "dichte matrixvermenigvuldiging de meest geoptimaliseerde wiskundige bewerking in de geschiedenis van de computer is. Er is enorm veel moeite gestoken in het ontwerpen van geheugens, chips, instructiesets en softwareroutines die het zo snel mogelijk uitvoeren. Veel van deze ontwikkelingen zijn ... vertrouwelijk gehouden en alleen toegankelijk gemaakt voor de eindgebruiker via krachtige maar beperkende programmeerinterfaces."

In feite zeggen ze dat de ingenieurs die de meest efficiënte manier hebben gevonden om de wiskunde te verwerken die nodig is voor traditionele FF-netwerken, hun software en algoritmen op laag niveau geheim houden en je niet naar hun code laten kijken.

Als het brein achter de ontwerpen van Intel of Nvidia GPU's laag-niveau codetoegang mogelijk zou maken om FFF-netwerken in AI-modellen te implementeren, dan zou de 341x snelheidsverbetering werkelijkheid kunnen worden.

Maar zullen ze dat doen? Als je je GPU's zo zou kunnen ontwerpen dat mensen er 99,7% minder van zouden kunnen kopen om dezelfde hoeveelheid verwerking te doen, zou je dat dan doen? Economie zal hier wel een rol in spelen, maar FFF-netwerken kunnen de volgende grote sprong in AI zijn.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden