MosaicML har presenterat sina nya AI-modeller med öppen källkod - MPT-30B Base, Instruct och Chat.
Dessa modeller med öppen källkod, som ingår i MPT-serien (MosaicML Pre Trained Transformer), anses vara de mest sofistikerade i sin kategori och överträffar GPT-3 i de flesta viktiga mätvärden.
Mosaik utbildade sina nya modeller med hjälp av NVIDIAs senaste H100-chip, som släpptes tidigare i år.
MPT-30B är den första offentligt kända LLM som tränats på avancerade NVIDIA H100 GPU:er.
Sedan introduktionen den 5 maj 2023 har Mosaics tidigare MPT-7B-modeller (Base, Instruct, Chat, StoryWriter) laddats ner över 3,3 miljoner gånger. MPT-30B har 30 miljarder parametrar - långt färre än GPT-3:s 175 miljarder parametrar eller GPT-4:s påstådda 1 biljon parametrar.
Men parameterantalet är inte allt - långt därifrån - eftersom MPT-30B har tränats på längre sekvenser med upp till 8.000 tokens, fyra gånger mer än GPT-3, LLaMA-familjen av modeller och Falcon-modellen.
Detta gör att MPT-30B bättre kan hantera datatunga arbetsflöden i företag och överträffa andra modeller för kodtunga arbetsflöden.
Flera företag, till exempel Replit, ett ledande webbaserat IDE, och Scatter Lab, ett AI-startup, har redan använt MPT:s modeller med öppen källkod, som är mer anpassningsbara än proprietära modeller som GPT-3.
Ilan Twig, medgrundare och CTO på Navan, säger. "På Navan använder vi generativ AI i alla våra produkter och tjänster, vilket driver upplevelser som vår virtuella resebyrå och vår konversationsagent för affärsinformation. MosaicML:s grundmodeller erbjuder toppmoderna språkfunktioner samtidigt som de är extremt effektiva för att finjustera och tjäna inferens i stor skala."
MPT-30B, nu tillgänglig via HuggingFace Hubär helt öppen källkod, och utvecklare kan finjustera den med sina data.
Mosaic syftar till att göra det möjligt för företag att integrera kraftfulla modeller med öppen källkod i sitt arbetsflöde och samtidigt behålla datasuveräniteten.
Fördelen med öppen källkod
Modeller med öppen källkod är snabbt överbrygga klyftan med konkurrenter som OpenAI.
Eftersom de dataresurser som krävs för att träna och distribuera modeller minskar, behöver utvecklare av öppen källkod inte längre superdatorer för flera miljoner dollar med hundratals avancerade processorer för att träna sina modeller.
Detsamma gäller för driftsättning av modeller - MPT-30B kan köras på en enda GPU, och open source-gruppen lyckades till och med köra en bantad version av LLaMa-modellen på en Raspberry PI.
Jag har sucefully kört LLaMA 7B-modellen på min 4 GB RAM Raspberry Pi 4. Det är super långsamt cirka 10 sekunder / token. Men det ser ut som om vi kan köra kraftfulla kognitiva rörledningar på en billig hårdvara. pic.twitter.com/XDbvM2U5GY
- Artem Andreenko 🇺🇦 (@miolini) 12 mars 2023
Dessutom ger modeller med öppen källkod strategiska fördelar för företagsanvändare.
Exempelvis kan företag inom branscher som sjukvård och bankverksamhet föredra att inte dela med sig av sina data till OpenAI eller Google.
Naveen Rao, medgrundare och VD för MosaicML, identifierar projekt med öppen källkod som allierade och säger att de "stänger gapet till dessa modeller med sluten källkod". Även om han erkänner att OpenAI:s GPT-4 är överlägsen, menar han att modeller med öppen källkod har "passerat den tröskel där dessa modeller faktiskt är extremt användbara".
AI med öppen källkod utvecklas snabbt, vilket får vissa att anklaga big tech för att driva på för reglering för att bromsa tillväxten. Företag bygger redan sina egna AI-stackar med öppen källkod, vilket sparar pengar som annars skulle kunna finansiera företag som OpenAI.
A läckt memo från en Google-anställd sa att alla stora AI-utvecklare - Google, Microsoft, Anthropic och OpenAI - konkurrerar med utvecklare av öppen källkod.
AI-utvecklare med öppen källkod kan bygga och iterera modeller snabbare än stora teknikföretag, vilket gör att de kan utmanövrera vanliga AI-modeller.
Detta är inte helt riskfritt, eftersom modeller med öppen källkod är svåra att övervaka och reglera när de väl har övergått i offentlig ägo.