Microsoft lanserar Phi-3 Mini, en liten men kraftfull LM

24 april 2024
  • Microsoft lanserade Phi-3 Mini, den första i sin nya familj av små språkmodeller (SLM)
  • Phi-3 Mini består av endast 3,8 B parametrar men presterar bättre än modeller som är dubbelt så stora
  • Microsoft säger att SLM:er är idealiska lösningar för specifika funktioner, lägre kostnader och offline-användning

Microsoft lanserade Phi-3 Mini, en liten språkmodell som är en del av företagets strategi att utveckla lätta, funktionsspecifika AI-modeller.

Utvecklingen av språkmodeller har inneburit allt större parametrar, träningsdataset och kontextfönster. Att skala upp storleken på dessa modeller gav kraftfullare funktioner, men till en kostnad.

Det traditionella tillvägagångssättet för att utbilda en LLM är att låta den konsumera stora mängder data, vilket kräver enorma dataresurser. Att utbilda en LLM som GPT-4, till exempel, beräknas ha tagit cirka 3 månader och kostat över $21 miljoner.

GPT-4 är en bra lösning för uppgifter som kräver komplexa resonemang, men överflödig för enklare uppgifter som att skapa innehåll eller en säljchattbot. Det är som att använda en schweizisk armékniv när allt du behöver är en enkel brevöppnare.

Med endast 3,8B parametrar är Phi-3 Mini liten. Ändå säger Microsoft att det är en idealisk lättviktslösning till låg kostnad för uppgifter som att sammanfatta ett dokument, extrahera insikter från rapporter och skriva produktbeskrivningar eller inlägg i sociala medier.

MMLU:s jämförelsesiffror visar att Phi-3 Mini och de större Phi-modellerna som ännu inte släppts slår större modeller som Mistral 7B och Gemma 7B.

Phi-3-modellernas prestanda på Massive Multitask Language Understanding (MMLU) benchmark jämfört med andra modeller av liknande storlek. Källa: Microsoft Microsoft

Microsoft säger att Phi-3-small (7B parametrar) och Phi-3-medium (14B parametrar) kommer att finnas tillgängliga i Azure AI Model Catalog "inom kort".

Större modeller som GPT-4 är fortfarande guldstandarden och vi kan nog förvänta oss att GPT-5 blir ännu större.

SLM:er som Phi-3 Mini erbjuder några viktiga fördelar som större modeller inte har. SLM:er är billigare att finjustera, kräver mindre beräkning och kan köras på enheten även i situationer där det inte finns någon internetuppkoppling.

Att distribuera en SLM vid kanten ger mindre latens och maximal sekretess eftersom data inte behöver skickas fram och tillbaka till molnet.

Här är Sebastien Bubeck, VP för GenAI-forskning på Microsoft AI, med en demo av Phi-3 Mini. Den är supersnabb och imponerande för att vara en så liten modell.

Kuraterad syntetisk data

Phi-3 Mini är ett resultat av att man inte längre tror att stora datamängder är det enda sättet att träna en modell.

Sebastien Bubeck, Microsofts vice president för generativ AI-forskning, frågade "Istället för att träna på bara rå webbdata, varför letar du inte efter data som är av extremt hög kvalitet?"

Ronen Eldan, maskininlärningsexpert på Microsoft Research, läste godnattsagor för sin dotter när han undrade om en språkmodell kunde lära sig att använda ord som en 4-åring kunde förstå.

Detta ledde till ett experiment där de skapade ett dataset som började med 3.000 ord. Med hjälp av endast detta begränsade ordförråd fick de en LLM att skapa miljontals korta barnberättelser som sammanställdes i en dataset som heter TinyStories.

Forskarna använde sedan TinyStories för att träna en extremt liten modell med 10 miljoner parametrar som sedan kunde generera "flytande berättelser med perfekt grammatik".

De fortsatte att iterera och skala denna metod för generering av syntetiska data för att skapa mer avancerade, men noggrant kuraterade och filtrerade syntetiska dataset som så småningom användes för att träna Phi-3 Mini.

Resultatet är en liten modell som blir billigare att köra samtidigt som den erbjuder prestanda som är jämförbara med GPT-3.5.

Mindre men mer kapabla modeller gör att företagen kommer att gå ifrån att bara välja stora LLM:er som GPT-4 som standard. Vi kan också snart få se lösningar där en LLM hanterar de tunga lyften men delegerar enklare uppgifter till lättviktsmodeller.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×
 
 

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI


 

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".



 
 

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar