Ny metode kan gøre store sprogmodeller 300 gange hurtigere

6. december 2023

Forskere fra ETH Zürich har fundet ud af, at store sprogmodeller (LLM) kun behøver at bruge en lille del af deres neuroner til individuelle slutninger. Deres nye tilgang lover at få LLM'er til at køre meget hurtigere.

For at begynde at forstå, hvordan det lykkedes dem at gøre AI-modeller hurtigere, er vi nødt til at få en grov idé om nogle af de tekniske ting, der udgør en AI-sprogmodel.

AI-modeller som GPT eller Llama består af feedforward-netværk, en type kunstige neurale netværk.

Feedforward-netværk (FF) er typisk organiseret i lag, hvor hvert lag af neuroner modtager input fra det foregående lag og sender sit output til det næste lag.

Det indebærer tæt matrixmultiplikation (DMM), som kræver, at hver neuron i FF udfører beregninger på alle input fra det foregående lag. Og det er derfor Nvidia sælger så mange af sine GPU'er fordi denne proces kræver meget processorkraft.

Forskerne brugte Fast Feedforward Networks (FFF) til at gøre denne proces meget hurtigere. Et FFF tager hvert lag af neuroner, deler det op i blokke og vælger derefter kun de mest relevante blokke baseret på input. Denne proces svarer til at udføre betinget matrixmultiplikation (CMM).

Det betyder, at i stedet for at alle neuroner i et lag er involveret i beregningen, er det kun en meget lille del, der er involveret.

Tænk på det som at sortere en bunke post for at finde et brev, der er beregnet til dig. I stedet for at læse navn og adresse på hvert eneste brev, kan du først sortere dem efter postnummer og derefter kun fokusere på dem, der gælder for dit område.

På samme måde identificerer FFF'er kun de få neuroner, der er nødvendige for hver beregning, hvilket kun resulterer i en brøkdel af den nødvendige behandling sammenlignet med traditionelle FF'er.

Hvor meget hurtigere?

Forskerne testede deres metode på en variant af Googles BERT-model, som de kaldte UltraFastBERT. UltraFastBERT består af 4095 neuroner, men engagerer selektivt kun 12 neuroner for hver laginferens.

Det betyder, at UltraFastBERT kræver omkring 0,03% af sine neuroner for at være involveret i behandlingen under udledningen, mens almindelig BERT ville have brug for 100% af sine neuroner til at være involveret i beregningen.

Teoretisk set betyder det, at UltraFastBERT vil være 341 gange hurtigere end BERT eller GPT-3.

Hvorfor siger vi "teoretisk", når forskerne forsikrer os om, at deres metode virker? Fordi de var nødt til at lave en softwareløsning for at få deres FFF til at fungere med BERT og kun opnåede en 78x forbedring af hastigheden under reel testning.

Det er en hemmelighed

Forskningsartiklen forklarede, at "Tæt matrixmultiplikation er den mest optimerede matematiske operation i computerens historie. Der er lagt en enorm indsats i at designe hukommelser, chips, instruktionssæt og softwarerutiner, der udfører den så hurtigt som muligt. Mange af disse fremskridt er ... blevet holdt fortrolige og kun eksponeret for slutbrugeren gennem kraftige, men restriktive programmeringsgrænseflader."

I bund og grund siger de, at de ingeniører, der har fundet frem til de mest effektive måder at behandle den matematik, der kræves til traditionelle FF-netværk, holder deres software og algoritmer på lavt niveau hemmelige og ikke vil lade dig se på deres kode.

Hvis hjernerne bag designet af Intels eller Nvidias GPU'er gav adgang til kode på lavt niveau for at implementere FFF-netværk i AI-modeller, kunne hastighedsforbedringen på 341x være en realitet.

Men vil de gøre det? Hvis du kunne konstruere dine GPU'er, så folk kunne købe 99,7% færre af dem for at udføre den samme mængde behandling, ville du så gøre det? Økonomien vil have en vis indflydelse på dette, men FFF-netværk kan være det næste store spring inden for AI.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser