Mixture of Experts och Sparsity - heta AI-ämnen förklarade

12 december 2023

Lanseringen av mindre och mer effektiva AI-modeller som Mistrals banbrytande Mixtral 8x7B-modell har gjort att begreppen "Mixture of Experts" (MoE) och "Sparsity" har blivit heta ämnen.

Dessa termer har förflyttats från komplexa AI-forskningsrapporter till nyhetsartiklar som rapporterar om snabbt förbättrade stora språkmodeller (LLM).

Som tur är behöver du inte vara datavetare för att ha en bred uppfattning om vad MoE och Sparsity är och varför dessa begrepp är så viktiga.

Blandning av experter

LLM:er som GPT-3 bygger på en arkitektur med täta nätverk. Dessa modeller består av lager av neurala nätverk där varje neuron i ett lager är kopplad till varje neuron i föregående och efterföljande lager.

Alla neuroner är involverade under såväl träning som inferens, dvs. processen att generera ett svar på din fråga. Dessa modeller är utmärkta för att hantera en mängd olika uppgifter men använder mycket datorkraft eftersom varje del av nätverket deltar i bearbetningen av en inmatning.

En modell som baseras på en MoE-arkitektur delar upp lagren i ett visst antal "experter" där varje expert är ett neuralt nätverk som tränats på specifika funktioner. Så när du ser en modell som heter Mixtral 8x7B betyder det att den har 8 expertlager med 7 miljarder parametrar vardera.

Varje expert är utbildad för att vara mycket bra på en smal aspekt av det övergripande problemet, ungefär som specialister inom ett område.

När en fråga har ställts delar ett Gating-nätverk upp frågan i olika tokens och avgör vilken expert som är bäst lämpad att behandla den. Resultaten från varje expert kombineras sedan för att ge det slutliga resultatet.

Tänk på MoE som att ha en grupp hantverkare med mycket specifika färdigheter för att göra din hemrenovering. I stället för att anlita en allmän hantverkare (tätt nätverk) för att göra allt, ber du rörmokaren John att göra rörmokeriet och elektrikern Peter att göra det elektriska.

Dessa modeller är snabbare att träna eftersom du inte behöver träna hela modellen för att göra allt.

MoE-modeller har också snabbare inferens jämfört med täta modeller med samma antal parametrar. Detta är anledningen till att Mixtral 8x7B med totalt 56 miljarder parametrar kan matcha eller slå GPT-3.5 som har 175 miljarder parametrar.

Det ryktas att GPT-4 använder en MoE-arkitektur med 16 experter medan Tvillingarna använder sig av en tät arkitektur.

Sparsamhet

Sparsamhet innebär att antalet aktiva element i en modell, t.ex. neuroner eller vikter, kan minskas utan att prestandan försämras avsevärt.

Om indata till AI-modeller, t.ex. text eller bilder, innehåller många nollor innebär tekniken med gles datarepresentation att man inte behöver slösa energi på att lagra nollorna.

I ett glest neuronnät är vikterna, eller styrkan i kopplingen mellan neuronerna, ofta noll. Sparsamhet beskär, eller tar bort, dessa vikter så att de inte inkluderas under bearbetningen. En MoE-modell är också naturligt gles eftersom den kan ha en expert som är involverad i bearbetningen medan resten sitter sysslolösa.

Sparsamhet kan leda till modeller som är mindre beräkningsintensiva och kräver mindre lagringsutrymme. De AI-modeller som så småningom körs på din enhet kommer i hög grad att förlita sig på Sparsity.

Du kan tänka på Sparsity som att gå till ett bibliotek för att få svar på en fråga. Om biblioteket har miljarder böcker kan du öppna varje bok i biblioteket och så småningom hitta relevanta svar i några av böckerna. Det är vad en icke-sparsam modell gör.

Om vi gör oss av med många av de böcker som mest har tomma sidor eller irrelevant information är det lättare att hitta de böcker som är relevanta för vår fråga så att vi öppnar färre böcker och hittar svaret snabbare.

Om du tycker om att hålla dig uppdaterad med den senaste AI-utvecklingen kan du förvänta dig att MoE och Sparsity nämns oftare. LLM är på väg att bli mycket mindre och snabbare.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar