MosaicML ha presentato i suoi nuovi modelli di intelligenza artificiale open-source: MPT-30B Base, Instruct e Chat.
Facenti parte della serie MPT (MosaicML Pre Trained Transformer), questi modelli open-source sono considerati i più sofisticati della categoria e superano il GPT-3 nella maggior parte delle metriche chiave.
Mosaico hanno formato i loro nuovi modelli utilizzando i più recenti chip H100 di NVIDIA, rilasciati all'inizio di quest'anno.
MPT-30B è il primo LLM noto al pubblico addestrato su GPU NVIDIA H100 di fascia alta.
Dalla loro introduzione il 5 maggio 2023, i precedenti modelli MPT-7B di Mosaic (Base, Instruct, Chat, StoryWriter) sono stati scaricati oltre 3,3 milioni di volte. MPT-30B ha 30 miliardi di parametri - molto meno dei 175 miliardi di GPT-3 o dei presunti 1.000 miliardi di GPT-4.
Ma il numero di parametri non è tutto, tutt'altro: MPT-30B è stato addestrato su sequenze più lunghe, fino a 8.000 token, 4 volte di più di GPT-3, della famiglia di modelli LLaMA e del modello Falcon.
Ciò consente all'MPT-30B di gestire meglio i flussi di lavoro aziendali che richiedono dati e di superare altri modelli per i flussi di lavoro che richiedono codice.
Diverse aziende, come Replit, un IDE leader sul web, e Scatter Lab, una startup che si occupa di AI, hanno già sfruttato i modelli open-source di MPT, che sono più personalizzabili rispetto a quelli proprietari come GPT-3.
Ilan Twig, cofondatore e CTO di Navan, ha dichiarato. "In Navan utilizziamo l'intelligenza artificiale generativa in tutti i nostri prodotti e servizi, alimentando esperienze come il nostro agente di viaggio virtuale e il nostro agente di business intelligence conversazionale. I modelli di base di MosaicML offrono capacità linguistiche all'avanguardia e al contempo sono estremamente efficienti per la messa a punto e l'inferenza su scala".
MPT-30B, ora disponibile attraverso l'Hub HuggingFaceè completamente open-source e gli sviluppatori possono perfezionarlo con i loro dati.
Mosaic mira a consentire alle aziende di integrare potenti modelli open-source nel loro flusso di lavoro, mantenendo la sovranità dei dati.
Il vantaggio dell'open-source
I modelli open-source sono colmare rapidamente il divario con concorrenti come OpenAI.
Con la diminuzione delle risorse di calcolo necessarie per addestrare e distribuire i modelli, gli sviluppatori open-source non hanno più bisogno di supercomputer multimilionari con centinaia di processori di fascia alta per addestrare i loro modelli.
Lo stesso vale per la distribuzione dei modelli: MPT-30B può essere eseguito su una singola GPU e la comunità open-source è riuscita persino a eseguire una versione ridotta del modello LLaMa su un Raspberry PI.
Ho eseguito con successo il modello LLaMA 7B sul mio Raspberry Pi 4 da 4 GB di RAM. È molto lento, circa 10 secondi/token. Ma sembra che si possano eseguire pipeline cognitive potenti su un hardware economico. pic.twitter.com/XDbvM2U5GY
- Artem Andreenko 🇺🇦 (@miolini) 12 marzo 2023
Inoltre, i modelli open-source conferiscono vantaggi strategici agli utenti aziendali.
Ad esempio, le aziende di settori come quello sanitario e bancario potrebbero preferire non condividere i propri dati con OpenAI o Google.
Naveen Rao, cofondatore e CEO di MosaicML, identifica i progetti open-source come alleati, affermando che stanno "colmando il divario con questi modelli closed-source". Pur riconoscendo la superiorità del GPT-4 di OpenAI, sostiene che i modelli open-source hanno "superato la soglia in cui questi modelli sono effettivamente estremamente utili".
L'IA open-source si sta evolvendo rapidamente, tanto da indurre alcuni ad accusare le big tech di spingere per una regolamentazione che ne freni la crescita. Le imprese stanno già costruendo i propri stack di IA open-source, risparmiando denaro che altrimenti potrebbe finanziare società come OpenAI.
A nota trapelata da un dipendente di Google ha affermato che tutti gli sviluppatori di IA delle grandi aziende tecnologiche - Google, Microsoft, Anthropic e OpenAI - sono in concorrenza con gli sviluppatori open-source.
Gli sviluppatori di IA open-source possono costruire e iterare i modelli più velocemente delle grandi tecnologie, consentendo loro di superare i modelli di IA tradizionali.
Questo non è privo di pericoli, poiché i modelli open-source sono difficili da monitorare e regolamentare una volta passati nelle mani del pubblico.