Microsoft bringt Phi-3 Mini auf den Markt, ein kleines, aber leistungsstarkes LM

April 24, 2024
  • Microsoft veröffentlicht Phi-3 Mini, das erste Modell seiner neuen Familie von Small Language Models (SLM)
  • Phi-3 Mini besteht aus nur 3,8B Parametern, ist aber leistungsfähiger als doppelt so große Modelle
  • Laut Microsoft sind SLMs ideale Lösungen für spezifische Funktionen, niedrigere Kosten und Offline-Nutzung

Microsoft hat Phi-3 Mini vorgestellt, ein winziges Sprachmodell, das Teil der Strategie des Unternehmens ist, leichtgewichtige, funktionsspezifische KI-Modelle zu entwickeln.

Die Entwicklung von Sprachmodellen hat zu immer größeren Parametern, Trainingsdatensätzen und Kontextfenstern geführt. Die Skalierung der Größe dieser Modelle lieferte immer leistungsfähigere Funktionen, allerdings zu einem gewissen Preis.

Der herkömmliche Ansatz für die Ausbildung eines LLM besteht darin, dass es riesige Datenmengen verbraucht, was enorme Rechenressourcen erfordert. Die Ausbildung eines LLM wie z.B. GPT-4 hat schätzungsweise etwa 3 Monate gedauert und über $21 Mio. gekostet.

GPT-4 ist eine großartige Lösung für Aufgaben, die komplexes Denken erfordern, aber ein Overkill für einfachere Aufgaben wie die Erstellung von Inhalten oder einen Vertriebs-Chatbot. Es ist, als würde man ein Schweizer Armeemesser verwenden, wenn man nur einen einfachen Brieföffner braucht.

Mit nur 3,8B Parametern ist der Phi-3 Mini winzig. Dennoch ist er laut Microsoft eine ideale, leichtgewichtige und kostengünstige Lösung für Aufgaben wie die Zusammenfassung eines Dokuments, die Extraktion von Erkenntnissen aus Berichten und das Schreiben von Produktbeschreibungen oder Beiträgen für soziale Medien.

Die MMLU-Benchmark-Zahlen zeigen, dass der Phi-3 Mini und die noch zu veröffentlichenden größeren Phi-Modelle die größeren Modelle wie Mistral 7B und Gemma 7B.

Leistung der Phi-3-Modelle beim Massive Multitask Language Understanding (MMLU)-Benchmark im Vergleich zu anderen Modellen ähnlicher Größe. Quelle: Microsoft

Microsoft sagt, dass Phi-3-small (7B Parameter) und Phi-3-medium (14B Parameter) in Kürze im Azure AI Model Catalog verfügbar sein werden.

Größere Modelle wie das GPT-4 sind nach wie vor der Goldstandard, und wir können wahrscheinlich davon ausgehen, dass das GPT-5 noch größer sein wird.

SLMs wie der Phi-3 Mini bieten einige wichtige Vorteile, die größere Modelle nicht haben. SLMs sind billiger in der Feinabstimmung, benötigen weniger Rechenleistung und können selbst in Situationen, in denen kein Internetzugang verfügbar ist, auf dem Gerät laufen.

Der Einsatz eines SLM am Netzwerkrand sorgt für geringere Latenzzeiten und maximalen Datenschutz, da keine Daten zur Cloud hin- und hergeschickt werden müssen.

Hier ist Sebastien Bubeck, VP der GenAI-Forschung bei Microsoft AI mit einer Demo des Phi-3 Mini. Er ist superschnell und beeindruckend für so ein kleines Modell.

Kuratierte synthetische Daten

Phi-3 Mini ist ein Ergebnis der Abkehr von der Vorstellung, dass große Datenmengen die einzige Möglichkeit sind, ein Modell zu trainieren.

Sébastien Bubeck, Vizepräsident für generative KI-Forschung bei Microsoft, fragte: "Warum trainiert man nicht einfach mit rohen Webdaten, sondern sucht nach Daten, die von extrem hoher Qualität sind?"

Ronen Eldan, Experte für maschinelles Lernen bei Microsoft Research, las seiner Tochter gerade Gutenachtgeschichten vor, als er sich fragte, ob ein Sprachmodell nur mit Wörtern lernen könnte, die eine Vierjährige versteht.

Dies führte zu einem Experiment, bei dem sie einen Datensatz mit zunächst 3.000 Wörtern erstellten. Unter Verwendung dieses begrenzten Vokabulars veranlassten sie einen LLM, Millionen von kurzen Kindergeschichten zu erstellen, die in einem Datensatz namens TinyStories zusammengefasst wurden.

Mit TinyStories trainierten die Forscher dann ein extrem kleines Modell mit 10 Millionen Parametern, das anschließend in der Lage war, "flüssige Erzählungen mit perfekter Grammatik" zu erzeugen.

Sie haben diesen Ansatz zur Generierung synthetischer Daten weiter verfeinert und skaliert, um fortschrittlichere, aber sorgfältig kuratierte und gefilterte synthetische Datensätze zu erstellen, die schließlich zum Training von Phi-3 Mini verwendet wurden.

Das Ergebnis ist ein winziges Modell, das erschwinglicher ist und eine vergleichbare Leistung wie GPT-3.5 bietet.

Kleinere, aber leistungsfähigere Modelle werden dazu führen, dass Unternehmen nicht mehr einfach große LLMs wie GPT-4 verwenden. Wir könnten auch bald Lösungen sehen, bei denen ein LLM die schweren Aufgaben übernimmt und einfachere Aufgaben an leichtgewichtige Modelle delegiert.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×
 
 

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus


 

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".



 
 

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen