Udgivelsen af mindre og mere effektive AI-modeller som Mistrals banebrydende Mixtral 8x7B-model har gjort begreberne "Mixture of Experts" (MoE) og "Sparsity" til varme emner.
Disse begreber har bevæget sig fra komplekse AI-forskningsartikler til nyhedsartikler, der rapporterer om hurtigt forbedrede store sprogmodeller (LLM).
Heldigvis behøver man ikke at være dataforsker for at have en bred idé om, hvad MoE og Sparsity er, og hvorfor disse begreber er vigtige.
Blanding af eksperter
LLM'er som GPT-3 er baseret på en tæt netværksarkitektur. Disse modeller består af lag af neurale netværk, hvor hver neuron i et lag er forbundet med alle neuroner i det foregående og efterfølgende lag.
Alle neuroner er involveret både under træning og under inferens, dvs. processen med at generere et svar på din forespørgsel. Disse modeller er gode til at håndtere en lang række opgaver, men bruger meget computerkraft, fordi alle dele af deres netværk deltager i behandlingen af et input.
En model baseret på en MoE-arkitektur opdeler lagene i et vist antal "eksperter", hvor hver ekspert er et neuralt netværk, der er fortrænet til specifikke funktioner. Så når du ser en model, der hedder Mixtral 8x7B, betyder det, at den har 8 ekspertlag med 7 milliarder parametre hver.
Hver ekspert er uddannet til at være meget god til et snævert aspekt af det overordnede problem, ligesom specialister inden for et felt.
Når du bliver bedt om det, opdeler et Gating Network spørgsmålet i forskellige tokens og beslutter, hvilken ekspert der er bedst egnet til at behandle det. Hver eksperts output kombineres derefter for at give det endelige output.
Tænk på MoE som at have en gruppe håndværkere med meget specifikke færdigheder til at udføre din boligrenovering. I stedet for at hyre en almindelig håndværker (tæt netværk) til at gøre alt, beder du blikkenslageren John om at lave vvs-arbejdet og elektrikeren Peter om at lave det elektriske arbejde.
Disse modeller er hurtigere at træne, fordi du ikke behøver at træne hele modellen til at gøre alt.
MoE-modeller har også hurtigere inferens sammenlignet med tætte modeller med samme antal parametre. Dette er grunden til, at Mixtral 8x7B med i alt 56 milliarder parametre kan matche eller slå GPT-3.5, som har 175 milliarder parametre.
Det rygtes, at GPT-4 bruger en MoE-arkitektur med 16 eksperter, mens Tvillingerne anvender en tæt arkitektur.
Sparsomhed
Sparsomhed refererer til ideen om at reducere antallet af aktive elementer i en model, som f.eks. neuroner eller vægte, uden at gå væsentligt på kompromis med dens ydeevne.
Hvis inputdata til AI-modeller, f.eks. tekst eller billeder, indeholder mange nuller, spilder teknikken med sparsom datarepræsentation ikke kræfter på at gemme nullerne.
I et sparsomt neuralt netværk er vægtene, eller styrken af forbindelsen mellem neuronerne, ofte nul. Sparsomhed beskærer eller fjerner disse vægte, så de ikke medtages under behandlingen. En MoE-model er også naturligt sparsom, fordi den kan have én ekspert involveret i behandlingen, mens resten er inaktive.
Sparsomhed kan føre til modeller, der er mindre beregningsintensive og kræver mindre lagerplads. De AI-modeller, der i sidste ende kører på din enhed, vil være stærkt afhængige af Sparsity.
Du kan tænke på Sparsity som at gå på et bibliotek for at få svar på et spørgsmål. Hvis biblioteket har milliarder af bøger, kan du åbne hver bog i biblioteket og til sidst finde relevante svar i nogle af bøgerne. Det er det, en ikke-sparsom model gør.
Hvis vi skiller os af med mange af de bøger, der mest har tomme sider eller irrelevant information, er det lettere at finde de bøger, der er relevante for vores spørgsmål, så vi åbner færre bøger og finder svaret hurtigere.
Hvis du kan lide at holde dig opdateret med den seneste AI-udvikling, så forvent at se MoE og Sparsity nævnt oftere. LLM'er er ved at blive meget mindre og hurtigere.