MosaicML revela a família MPT-30B de modelos de IA de código aberto

24 de junho de 2023

Código aberto

A MosaicML revelou os seus novos modelos de IA de código aberto - MPT-30B Base, Instruct e Chat. 

Fazendo parte da série MPT (MosaicML Pre Trained Transformer), estes modelos de código aberto são considerados os mais sofisticados da sua categoria, ultrapassando o GPT-3 na maioria das métricas chave. 

Mosaico treinaram os seus novos modelos utilizando os mais recentes chips H100 da NVIDIA, lançados no início deste ano. 

O MPT-30B é o primeiro LLM conhecido publicamente treinado em GPUs NVIDIA H100 de ponta. 

Desde a sua introdução em 5 de maio de 2023, os anteriores modelos MPT-7B do Mosaic (Base, Instruct, Chat, StoryWriter) foram descarregados mais de 3,3 milhões de vezes. O MPT-30B tem 30 mil milhões de parâmetros - muito menos do que os 175 mil milhões de parâmetros do GPT-3 ou os alegados 1 trilião de parâmetros do GPT-4. 

Mas a contagem de parâmetros não é tudo - longe disso - já que o MPT-30B foi treinado em sequências mais longas de até 8.000 tokens, 4 vezes mais do que o GPT-3, a família de modelos LLaMA e o modelo Falcon.

Isto permite ao MPT-30B gerir melhor os fluxos de trabalho empresariais com muitos dados e superar outros modelos para fluxos de trabalho com muito código.

Várias empresas, como a Replit, uma IDE líder na Web, e a Scatter Lab, uma empresa iniciante de IA, já utilizaram os modelos de código aberto do MPT, que são mais personalizáveis do que os modelos proprietários como o GPT-3. 

Ilan Twig, cofundador e CTO da Navan, afirmou. "Na Navan, usamos IA generativa em nossos produtos e serviços, alimentando experiências como nosso agente de viagens virtual e nosso agente de inteligência de negócios conversacional. Os modelos de base do MosaicML oferecem recursos de linguagem de última geração, sendo extremamente eficientes para ajustar e servir inferência em escala." 

MPT-30B, agora disponível através do HuggingFace Hubé totalmente de código aberto e os programadores podem ajustá-lo aos seus dados. 

A Mosaic procura permitir que as empresas integrem poderosos modelos de fonte aberta no seu fluxo de trabalho, mantendo a soberania dos dados. 

A vantagem do código aberto

Os modelos de código aberto são colmatando rapidamente o fosso com concorrentes como a OpenAI. 

À medida que os recursos informáticos necessários para treinar e implementar modelos diminuem, os programadores de código aberto já não precisam de supercomputadores multimilionários com centenas de processadores topo de gama para treinar os seus modelos. 

O mesmo se aplica à implementação de modelos - o MPT-30B pode ser executado numa única GPU, e a comunidade de código aberto conseguiu mesmo executar uma versão reduzida do modelo LLaMa num Raspberry PI.

Além disso, os modelos de código aberto conferem vantagens estratégicas aos utilizadores empresariais.

Por exemplo, as empresas de sectores como os cuidados de saúde e a banca podem preferir não partilhar os seus dados com a OpenAI ou a Google. 

Naveen Rao, cofundador e diretor executivo da MosaicML, identifica os projectos de código aberto como aliados, afirmando que estão a "colmatar a lacuna destes modelos de código fechado". Embora reconheça a superioridade do GPT-4 da OpenAI, argumenta que os modelos de código aberto "ultrapassaram o limiar em que estes modelos são de facto extremamente úteis".

A IA de código aberto está a evoluir rapidamente, levando alguns a acusar as grandes tecnologias de estarem a pressionar a regulamentação para travar o seu crescimento. As empresas já estão a construir as suas próprias pilhas de IA de código aberto, poupando dinheiro que, de outra forma, poderia financiar empresas como a OpenAI. 

A memorando divulgado por um funcionário da Google afirmou que todos os criadores de IA das grandes tecnologias - Google, Microsoft, Anthropic e OpenAI - estão a competir com os criadores de código aberto. 

Os programadores de IA de código aberto podem criar e iterar modelos mais rapidamente do que a grande tecnologia, o que lhes permite ultrapassar os modelos de IA convencionais.

Isto não é isento de perigos, uma vez que os modelos de código aberto são difíceis de controlar e regular quando passam para as mãos do público.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições