MosaicML hat seine neuen Open-Source-KI-Modelle MPT-30B Base, Instruct und Chat vorgestellt.
Als Teil der MPT-Serie (MosaicML Pre Trained Transformer) gelten diese Open-Source-Modelle als die anspruchsvollsten in ihrer Kategorie und übertreffen GPT-3 in den meisten Schlüsselmetriken.
Mosaik haben ihre neuen Modelle mit den neuesten H100-Chips von NVIDIA geschult, die Anfang dieses Jahres auf den Markt kamen.
MPT-30B ist das erste öffentlich bekannte LLM, das auf High-End NVIDIA H100 GPUs trainiert wurde.
Seit ihrer Einführung am 5. Mai 2023 wurden die vorherigen MPT-7B-Modelle von Mosaic (Base, Instruct, Chat, StoryWriter) über 3,3 Millionen Mal heruntergeladen. MPT-30B hat 30 Milliarden Parameter - weit weniger als die 175 Milliarden Parameter von GPT-3 oder die angebliche 1 Billion Parameter von GPT-4.
Aber die Anzahl der Parameter ist nicht alles - ganz im Gegenteil. MPT-30B wurde auf längeren Sequenzen mit bis zu 8.000 Token trainiert, viermal mehr als GPT-3, die LLaMA-Modellfamilie und das Falcon-Modell.
Dadurch kann der MPT-30B datenintensive Unternehmens-Workflows besser verwalten und andere Modelle für codeintensive Workflows ausstechen.
Mehrere Unternehmen wie Replit, eine führende webbasierte IDE, und Scatter Lab, ein KI-Startup, haben bereits die Open-Source-Modelle von MPT genutzt, die sich besser anpassen lassen als proprietäre Modelle wie GPT-3.
Ilan Twig, Mitbegründer und CTO bei Navan, sagte. "Bei Navan nutzen wir generative KI für alle unsere Produkte und Dienstleistungen, wie z. B. für unser virtuelles Reisebüro und unseren konversationellen Business Intelligence Agent. Die Basismodelle von MosaicML bieten hochmoderne Sprachfähigkeiten und sind gleichzeitig extrem effizient bei der Feinabstimmung und der Bereitstellung von Inferenzen im großen Maßstab."
MPT-30B, jetzt erhältlich über den HuggingFace HubDie Software ist vollständig quelloffen und kann von Entwicklern mit ihren Daten feinabgestimmt werden.
Mosaic soll es Unternehmen ermöglichen, leistungsstarke Open-Source-Modelle in ihre Arbeitsabläufe zu integrieren und dabei die Datenhoheit zu behalten.
Der Open-Source-Vorteil
Open-Source-Modelle sind die Kluft schnell zu überbrücken mit Wettbewerbern wie OpenAI.
Da die für das Trainieren und Bereitstellen von Modellen erforderlichen Rechenressourcen sinken, benötigen Open-Source-Entwickler keine millionenschweren Supercomputer mit Hunderten von High-End-Prozessoren mehr, um ihre Modelle zu trainieren.
Das Gleiche gilt für den Einsatz von Modellen - MPT-30B kann auf einem einzigen Grafikprozessor laufen, und der Open-Source-Gemeinschaft ist es sogar gelungen, eine abgespeckte Version des LLaMa-Modells auf einem Raspberry PI laufen zu lassen.
Ich habe sucefully lief LLaMA 7B Modell auf meinem 4GB RAM Raspberry Pi 4. Es ist super langsam über 10sec/Token. Aber es sieht aus, wir können leistungsstarke kognitive Pipelines auf einer billigen Hardware laufen. pic.twitter.com/XDbvM2U5GY
- Artem Andreenko 🇺🇦 (@miolini) 12. März 2023
Darüber hinaus bieten Open-Source-Modelle den Unternehmen strategische Vorteile.
Unternehmen in Branchen wie dem Gesundheitswesen und dem Bankensektor möchten ihre Daten möglicherweise nicht mit OpenAI oder Google teilen.
Naveen Rao, Mitbegründer und CEO von MosaicML, bezeichnet Open-Source-Projekte als Verbündete und erklärt, dass sie "die Lücke zu diesen Closed-Source-Modellen schließen". Obwohl er die Überlegenheit von OpenAIs GPT-4 anerkennt, argumentiert er, dass Open-Source-Modelle "die Schwelle überschritten haben, wo diese Modelle tatsächlich extrem nützlich sind".
Open-Source-KI entwickelt sich rasant, was einige dazu veranlasst, Big Tech zu beschuldigen, auf eine Regulierung zu drängen, um ihr Wachstum zu bremsen. Unternehmen bauen bereits ihre eigenen Open-Source-KI-Stacks auf und sparen so Geld, das andernfalls in Unternehmen wie OpenAI fließen würde.
A durchgesickertes Memo eines Google-Mitarbeiters sagte, dass alle großen Tech-KI-Entwickler - Google, Microsoft, Anthropic und OpenAI - mit Open-Source-Entwicklern konkurrieren.
Open-Source-KI-Entwickler können Modelle schneller erstellen und iterieren als die großen Technologieunternehmen, wodurch sie die gängigen KI-Modelle ausmanövrieren können.
Das ist nicht ungefährlich, denn Open-Source-Modelle sind schwer zu überwachen und zu regulieren, sobald sie in öffentliche Hände gelangen.