Ekspertmiks og sparsomhet - hete AI-emner forklart

12. desember 2023

Lanseringen av mindre og mer effektive AI-modeller, som Mistrals banebrytende Mixtral 8x7B-modell, har ført til at begrepene "Mixture of Experts" (MoE) og "Sparsity" har blitt et hett tema.

Disse begrepene har beveget seg fra komplekse forskningsartikler om kunstig intelligens til nyhetsartikler om store språkmodeller (Large Language Models, LLM) som raskt forbedres.

Heldigvis trenger du ikke å være dataforsker for å ha en bred forståelse av hva MoE og Sparsity er, og hvorfor disse begrepene er så viktige.

En blanding av eksperter

LLM-er som GPT-3 er basert på en tett nettverksarkitektur. Disse modellene består av lag med nevrale nettverk der hvert nevron i et lag er koblet til alle nevronene i det foregående og de påfølgende lagene.

Alle nevronene er involvert både under treningen og under inferensen, prosessen med å generere et svar på spørsmålet ditt. Disse modellene er ypperlige til å løse en lang rekke oppgaver, men bruker mye datakraft fordi alle deler av nettverket deltar i behandlingen av en input.

En modell basert på en MoE-arkitektur deler lagene opp i et visst antall "eksperter", der hver ekspert er et nevralt nettverk som er trent på spesifikke funksjoner. Så når du ser en modell som heter Mixtral 8x7B, betyr det at den har 8 ekspertlag med 7 milliarder parametere hver.

Hver ekspert er opplært til å bli veldig god på et smalt aspekt av det overordnede problemet, omtrent som spesialister på et felt.

Når du blir bedt om det, deler et Gating Network opp ledeteksten i ulike tokens og avgjør hvilken ekspert som er best egnet til å behandle den. Resultatene fra hver ekspert kombineres deretter for å gi det endelige resultatet.

Tenk på MoE som en gruppe håndverkere med svært spesifikke ferdigheter som kan utføre oppussingen av hjemmet ditt. I stedet for å ansette en generell håndverker (tett nettverk) til å gjøre alt, ber du rørleggeren John om å gjøre rørleggerarbeidet og elektrikeren Peter om å gjøre det elektriske arbeidet.

Disse modellene er raskere å trene opp fordi du ikke trenger å trene opp hele modellen for å gjøre alt.

MoE-modeller har også raskere inferens sammenlignet med tette modeller med samme antall parametere. Dette er grunnen til at Mixtral 8x7B med totalt 56 milliarder parametere kan matche eller slå GPT-3.5, som har 175 milliarder parametere.

Det ryktes at GPT-4 bruker en MoE-arkitektur med 16 eksperter, mens Tvillingene benytter en tett arkitektur.

Sparsomhet

Sparsomhet refererer til ideen om å redusere antallet aktive elementer i en modell, for eksempel nevroner eller vekter, uten at det går vesentlig ut over ytelsen.

Hvis inngangsdata for AI-modeller, for eksempel tekst eller bilder, inneholder mange nuller, sløser ikke teknikken med sparsom datarepresentasjon bort krefter på å lagre nullene.

I et sparsomt nevralt nettverk er vektene, eller styrken på forbindelsen mellom nevronene, ofte lik null. Sparsomhet beskjærer, eller fjerner, disse vektene slik at de ikke tas med under prosesseringen. En MoE-modell er også naturlig sparsom fordi den kan ha én ekspert involvert i prosesseringen, mens resten sitter uvirksomme.

Sparsity kan føre til modeller som er mindre beregningsintensive og krever mindre lagringsplass. AI-modellene som til slutt kjøres på enheten din, vil i stor grad basere seg på Sparsity.

Du kan tenke på Sparsity som å gå til et bibliotek for å få svar på et spørsmål. Hvis biblioteket har milliarder av bøker, kan du åpne hver eneste bok i biblioteket og til slutt finne relevante svar i noen av bøkene. Det er det en ikke-sparsom modell gjør.

Hvis vi kvitter oss med mange av bøkene som for det meste har tomme sider eller irrelevant informasjon, er det lettere å finne de bøkene som er relevante for spørsmålet vårt, slik at vi åpner færre bøker og finner svaret raskere.

Hvis du liker å holde deg oppdatert på den nyeste utviklingen innen AI, kan du forvente å se MoE og Sparsity nevnt oftere. LLM-er er i ferd med å bli mye mindre og raskere.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser