Mengsel van experts en spaarzaamheid - Uitleg over actuele AI-onderwerpen

12 december 2023

Met het uitbrengen van kleinere en efficiëntere AI-modellen, zoals Mistral's baanbrekende Mixtral 8x7B model, zijn de concepten van "Mixture of Experts" (MoE) en "Sparsity" hot topics geworden.

Deze termen hebben zich verplaatst van complexe AI-onderzoekspapers naar nieuwsartikelen die berichten over snel verbeterende Large Language Models (LLM).

Gelukkig hoef je geen datawetenschapper te zijn om een breed idee te hebben van wat MoE en Sparsity zijn en waarom deze concepten belangrijk zijn.

Mengeling van deskundigen

LLM's zoals GPT-3 zijn gebaseerd op een dichte netwerkarchitectuur. Deze modellen bestaan uit lagen van neurale netwerken waarbij elk neuron in een laag verbonden is met elk neuron in de voorgaande en volgende lagen.

Alle neuronen zijn betrokken bij zowel de training als de inferentie, het proces waarbij een antwoord op je vraag wordt gegenereerd. Deze modellen zijn zeer geschikt om een grote verscheidenheid aan taken aan te pakken, maar gebruiken veel rekenkracht omdat elk deel van hun netwerk deelneemt aan de verwerking van een input.

Een model gebaseerd op een MoE architectuur splitst de lagen op in een bepaald aantal "experts" waarbij elke expert een neuraal netwerk is dat is voorgetraind op specifieke functies. Als je dus een model ziet met de naam Mixtral 8x7B, betekent dit dat het 8 expertlagen heeft met elk 7 miljard parameters.

Elke expert is getraind om zeer goed te zijn in een nauw aspect van het totale probleem, net als specialisten in een vakgebied.

Eenmaal gevraagd, splitst een Gating Netwerk de vraag op in verschillende tokens en beslist welke expert het meest geschikt is om de vraag te verwerken. De resultaten van elke expert worden vervolgens gecombineerd tot de uiteindelijke resultaten.

Zie MoE als een groep vakmensen met zeer specifieke vaardigheden om je huis te renoveren. In plaats van een algemene klusjesman (dicht netwerk) in te huren om alles te doen, vraag je John de loodgieter om het loodgieterswerk te doen en Peter de elektricien om de elektriciteit te doen.

Deze modellen zijn sneller te trainen omdat je niet het hele model hoeft te trainen om alles te doen.

MoE-modellen hebben ook een snellere inferentie vergeleken met dichte modellen met hetzelfde aantal parameters. Dit is de reden waarom Mixtral 8x7B met een totaal van 56 miljard parameters kan GPT-3.5, die 175 miljard parameters heeft, evenaren of verslaan.

Het gerucht gaat dat GPT-4 gebruikt een MoE-architectuur met 16 experts, terwijl Tweelingen maakt gebruik van een dichte architectuur.

Sparsity

Sparsity verwijst naar het idee om het aantal actieve elementen in een model, zoals de neuronen of gewichten, te verminderen zonder de prestaties significant aan te tasten.

Als invoergegevens voor AI-modellen, zoals tekst of afbeeldingen, veel nullen bevatten, verspilt de techniek van sparse gegevensrepresentatie geen moeite aan het opslaan van de nullen.

In een spaarzaam neuraal netwerk zijn de gewichten, of de sterkte van de verbinding tussen neuronen, vaak nul. Sparsity snoeit, of verwijdert, deze gewichten zodat ze niet worden meegenomen tijdens de verwerking. Een MvE-model is ook van nature spaarzaam omdat er één expert betrokken kan zijn bij de verwerking terwijl de rest niets doet.

Sparsity kan leiden tot modellen die minder rekenintensief zijn en minder opslagruimte nodig hebben. De AI-modellen die uiteindelijk op je apparaat draaien, zullen sterk afhankelijk zijn van Sparsity.

Je kunt aan Sparsity denken alsof je naar een bibliotheek gaat om een antwoord op een vraag te krijgen. Als de bibliotheek miljarden boeken heeft, kun je elk boek in de bibliotheek openen en uiteindelijk in sommige boeken relevante antwoorden vinden. Dat is wat een niet-spars model doet.

Als we ons ontdoen van veel boeken met lege pagina's of irrelevante informatie, is het makkelijker om de boeken te vinden die relevant zijn voor onze vraag, zodat we minder boeken openslaan en het antwoord sneller vinden.

Als je het leuk vindt om op de hoogte te blijven van de nieuwste AI-ontwikkelingen, verwacht dan dat je MoE en Sparsity vaker genoemd zult zien worden. LLM's staan op het punt een stuk kleiner en sneller te worden.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden