MosaicML har avduket sine nye AI-modeller med åpen kildekode - MPT-30B Base, Instruct og Chat.
Disse åpen kildekode-modellene, som er en del av MPT-serien (MosaicML Pre Trained Transformer), regnes som de mest sofistikerte i sin kategori, og overgår GPT-3 på de fleste viktige parametere.
Mosaikk trente sine nye modeller med NVIDIAs nyeste H100-brikker, som ble lansert tidligere i år.
MPT-30B er den første offentlig kjente LLM-en som er trent på avanserte NVIDIA H100 GPU-er.
Siden introduksjonen 5. mai 2023 har Mosaics tidligere MPT-7B-modeller (Base, Instruct, Chat, StoryWriter) blitt lastet ned over 3,3 millioner ganger. MPT-30B har 30 milliarder parametere - langt færre enn GPT-3s 175 milliarder parametere eller GPT-4s påståtte 1 billion parametere.
Men antall parametere er ikke alt - langt ifra - ettersom MPT-30B har blitt trent på lengre sekvenser på opptil 8000 tokens, fire ganger mer enn GPT-3, LLaMA-familien av modeller og Falcon-modellen.
Dette gjør MPT-30B bedre i stand til å håndtere datatunge arbeidsflyter i bedriften og utkonkurrere andre modeller for kodetunge arbeidsflyter.
Flere bedrifter, som Replit, en ledende nettbasert IDE, og Scatter Lab, et nystartet AI-selskap, har allerede tatt i bruk MPTs modeller med åpen kildekode, som er mer tilpasningsdyktige enn proprietære modeller som GPT-3.
Ilan Twig, medgrunnlegger og teknisk direktør i Navan, sier "Hos Navan bruker vi generativ AI i alle våre produkter og tjenester, og vi bruker det i opplevelser som vårt virtuelle reisebyrå og vår dialogbaserte business intelligence-agent. MosaicMLs grunnmodeller tilbyr toppmoderne språkfunksjoner, samtidig som de er ekstremt effektive når det gjelder å finjustere og tjene slutninger i stor skala."
MPT-30B, nå tilgjengelig gjennom HuggingFace Huber helt åpen kildekode, og utviklere kan finjustere den med egne data.
Mosaic har som mål å gjøre det mulig for bedrifter å integrere kraftige modeller med åpen kildekode i arbeidsflyten, samtidig som de beholder datasuvereniteten.
Den åpne kildekode-fordelen
Modeller med åpen kildekode er raskt å bygge bro over gapet med konkurrenter som OpenAI.
Etter hvert som databehandlingsressursene som kreves for å trene og distribuere modeller, synker, trenger ikke open source-utviklere lenger superdatamaskiner til flere millioner dollar med hundrevis av avanserte prosessorer for å trene opp modellene sine.
Det samme gjelder for distribusjon av modeller - MPT-30B kan kjøres på én enkelt GPU, og open source-fellesskapet har til og med klart å kjøre en nedskalert versjon av LLaMa-modellen på en Raspberry PI.
Jeg har sucefully kjørt LLaMA 7B-modellen på min 4GB RAM Raspberry Pi 4. Det er super tregt, omtrent 10 sek/token. Men det ser ut til at vi kan kjøre kraftige kognitive pipelines på en billig maskinvare. pic.twitter.com/XDbvM2U5GY
- Artem Andreenko 🇺🇦 (@miolini) 12. mars 2023
I tillegg gir åpen kildekode-modeller strategiske fordeler for forretningsbrukere.
For eksempel kan det hende at virksomheter i bransjer som helsevesenet og bankvesenet foretrekker å ikke dele dataene sine med OpenAI eller Google.
Naveen Rao, medstifter og administrerende direktør i MosaicML, identifiserer åpen kildekode-prosjekter som allierte, og sier at de er i ferd med å "lukke gapet til disse lukkede kildekode-modellene". Selv om han erkjenner overlegenheten til OpenAIs GPT-4, hevder han at åpen kildekode-modeller har "krysset terskelen der disse modellene faktisk er ekstremt nyttige".
Åpen kildekode for kunstig intelligens er i rask utvikling, noe som har fått noen til å beskylde big tech for å presse på for regulering for å bremse veksten. Bedrifter bygger allerede sine egne AI-stabler med åpen kildekode, noe som sparer penger som ellers kunne finansiert selskaper som OpenAI.
A lekket notat fra en Google-ansatt sa at alle de store AI-utviklerne - Google, Microsoft, Anthropic og OpenAI - konkurrerer med open source-utviklere.
Utviklere av åpen kildekode-KI kan bygge og iterere modeller raskere enn de store teknologibedriftene, noe som gjør dem i stand til å utmanøvrere mainstream-KI-modeller.
Dette er ikke uten farer, ettersom åpen kildekode-modeller er utfordrende å overvåke og regulere når de først er overført til offentlige hender.