Microsoft lanceert Phi-3 Mini, een kleine maar krachtige LM

24 april 2024
  • Microsoft heeft Phi-3 Mini uitgebracht, de eerste in zijn nieuwe familie van kleine taalmodellen (SLM)
  • Phi-3 Mini bestaat uit slechts 3,8B parameters maar presteert beter dan modellen die twee keer zo groot zijn
  • Microsoft zegt dat SLM's ideale oplossingen zijn voor specifieke functies, lagere kosten en offline gebruik

Microsoft heeft Phi-3 Mini gelanceerd, een piepklein taalmodel dat deel uitmaakt van de strategie van het bedrijf om lichtgewicht, functiespecifieke AI-modellen te ontwikkelen.

Bij de ontwikkeling van taalmodellen zijn de parameters, trainingsdatasets en contextvensters steeds groter geworden. Het opschalen van deze modellen leverde krachtigere mogelijkheden op, maar tegen een prijs.

De traditionele aanpak voor het trainen van een LLM is om deze enorme hoeveelheden gegevens te laten verbruiken, waarvoor enorme rekenkracht nodig is. Het trainen van een LLM zoals GPT-4 heeft naar schatting ongeveer 3 maanden geduurd en meer dan $21m gekost.

GPT-4 is een geweldige oplossing voor taken die complexe redeneringen vereisen, maar overkill voor eenvoudigere taken zoals het maken van content of een verkoopchatbot. Het is alsof je een Zwitsers zakmes gebruikt terwijl je alleen een eenvoudige briefopener nodig hebt.

Met slechts 3,8B parameters is de Phi-3 Mini piepklein. Toch is het volgens Microsoft een ideale lichtgewicht, goedkope oplossing voor taken als het samenvatten van een document, het extraheren van inzichten uit rapporten en het schrijven van productbeschrijvingen of berichten in sociale media.

De MMLU benchmark cijfers laten zien dat de Phi-3 Mini en de nog uit te brengen grotere Phi modellen grotere modellen verslaan zoals Mistral 7B en Gemma 7B.

Prestaties van Phi-3 modellen op de Massive Multitask Language Understanding (MMLU) benchmark vergeleken met andere modellen van vergelijkbare grootte. Bron: Microsoft

Microsoft zegt dat Phi-3-small (7B parameters) en Phi-3-medium (14B parameters) "binnenkort" beschikbaar zullen zijn in de Azure AI Model Catalog.

Grotere modellen zoals GPT-4 zijn nog steeds de gouden standaard en we kunnen waarschijnlijk verwachten dat GPT-5 nog groter zal zijn.

SLM's zoals de Phi-3 Mini bieden een aantal belangrijke voordelen die grotere modellen niet hebben. SLM's zijn goedkoper om nauwkeurig af te stellen, vereisen minder rekenkracht en kunnen on-device draaien, zelfs in situaties waar geen internettoegang beschikbaar is.

Het inzetten van een SLM aan de rand resulteert in minder latency en maximale privacy omdat er geen gegevens heen en weer hoeven te worden gestuurd naar de cloud.

Hier is Sebastien Bubeck, VP van GenAI onderzoek bij Microsoft AI met een demo van de Phi-3 Mini. Het is supersnel en indrukwekkend voor zo'n klein model.

Samengestelde synthetische gegevens

Phi-3 Mini is het resultaat van het loslaten van het idee dat enorme hoeveelheden gegevens de enige manier zijn om een model te trainen.

Sebastien Bubeck, vicepresident generatief AI-onderzoek bij Microsoft, vroeg: "In plaats van te trainen op alleen ruwe webdata, waarom zoek je niet naar data van extreem hoge kwaliteit?"

Microsoft Research machine learning expert Ronen Eldan las verhaaltjes voor het slapen gaan voor aan zijn dochter toen hij zich afvroeg of een taalmodel kon leren door alleen woorden te gebruiken die een 4-jarige kon begrijpen.

Dit leidde tot een experiment waarbij ze een dataset creëerden die begon met 3.000 woorden. Met alleen deze beperkte woordenschat lieten ze een LLM miljoenen korte kinderverhalen maken die werden samengevoegd in een dataset met de naam TinyStories.

De onderzoekers gebruikten vervolgens TinyStories om een extreem klein model met 10M parameters te trainen dat vervolgens in staat was om "vloeiende verhalen met een perfecte grammatica" te genereren.

Ze bleven deze aanpak voor het genereren van synthetische gegevens itereren en opschalen om geavanceerdere, maar zorgvuldig gecureerde en gefilterde synthetische datasets te maken die uiteindelijk werden gebruikt om Phi-3 Mini te trainen.

Het resultaat is een piepklein model dat betaalbaarder zal zijn om te gebruiken terwijl het prestaties biedt die vergelijkbaar zijn met GPT-3.5.

Kleinere maar meer capabele modellen zullen ervoor zorgen dat bedrijven niet meer standaard kiezen voor grote LLM's zoals GPT-4. We zouden ook snel oplossingen kunnen zien waarbij een LLM het zware werk doet, maar eenvoudigere taken delegeert aan lichtgewicht modellen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×
 
 

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI


 

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.



 
 

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden