A MosaicML revelou os seus novos modelos de IA de código aberto - MPT-30B Base, Instruct e Chat.
Fazendo parte da série MPT (MosaicML Pre Trained Transformer), estes modelos de código aberto são considerados os mais sofisticados da sua categoria, ultrapassando o GPT-3 na maioria das métricas chave.
Mosaico treinaram os seus novos modelos utilizando os mais recentes chips H100 da NVIDIA, lançados no início deste ano.
O MPT-30B é o primeiro LLM conhecido publicamente treinado em GPUs NVIDIA H100 de ponta.
Desde a sua introdução em 5 de maio de 2023, os anteriores modelos MPT-7B do Mosaic (Base, Instruct, Chat, StoryWriter) foram descarregados mais de 3,3 milhões de vezes. O MPT-30B tem 30 mil milhões de parâmetros - muito menos do que os 175 mil milhões de parâmetros do GPT-3 ou os alegados 1 trilião de parâmetros do GPT-4.
Mas a contagem de parâmetros não é tudo - longe disso - já que o MPT-30B foi treinado em sequências mais longas de até 8.000 tokens, 4 vezes mais do que o GPT-3, a família de modelos LLaMA e o modelo Falcon.
Isto permite ao MPT-30B gerir melhor os fluxos de trabalho empresariais com muitos dados e superar outros modelos para fluxos de trabalho com muito código.
Várias empresas, como a Replit, uma IDE líder na Web, e a Scatter Lab, uma empresa iniciante de IA, já utilizaram os modelos de código aberto do MPT, que são mais personalizáveis do que os modelos proprietários como o GPT-3.
Ilan Twig, cofundador e CTO da Navan, afirmou. "Na Navan, usamos IA generativa em nossos produtos e serviços, alimentando experiências como nosso agente de viagens virtual e nosso agente de inteligência de negócios conversacional. Os modelos de base do MosaicML oferecem recursos de linguagem de última geração, sendo extremamente eficientes para ajustar e servir inferência em escala."
MPT-30B, agora disponível através do HuggingFace Hubé totalmente de código aberto e os programadores podem ajustá-lo aos seus dados.
A Mosaic procura permitir que as empresas integrem poderosos modelos de fonte aberta no seu fluxo de trabalho, mantendo a soberania dos dados.
A vantagem do código aberto
Os modelos de código aberto são colmatando rapidamente o fosso com concorrentes como a OpenAI.
À medida que os recursos informáticos necessários para treinar e implementar modelos diminuem, os programadores de código aberto já não precisam de supercomputadores multimilionários com centenas de processadores topo de gama para treinar os seus modelos.
O mesmo se aplica à implementação de modelos - o MPT-30B pode ser executado numa única GPU, e a comunidade de código aberto conseguiu mesmo executar uma versão reduzida do modelo LLaMa num Raspberry PI.
Eu executei com sucesso o modelo LLaMA 7B no meu Raspberry Pi 4 de 4GB de RAM. É super lento, cerca de 10 segundos/token. Mas parece que podemos executar pipelines cognitivos poderosos num hardware barato. pic.twitter.com/XDbvM2U5GY
- Artem Andreenko 🇺🇦 (@miolini) 12 de março de 2023
Além disso, os modelos de código aberto conferem vantagens estratégicas aos utilizadores empresariais.
Por exemplo, as empresas de sectores como os cuidados de saúde e a banca podem preferir não partilhar os seus dados com a OpenAI ou a Google.
Naveen Rao, cofundador e diretor executivo da MosaicML, identifica os projectos de código aberto como aliados, afirmando que estão a "colmatar a lacuna destes modelos de código fechado". Embora reconheça a superioridade do GPT-4 da OpenAI, argumenta que os modelos de código aberto "ultrapassaram o limiar em que estes modelos são de facto extremamente úteis".
A IA de código aberto está a evoluir rapidamente, levando alguns a acusar as grandes tecnologias de estarem a pressionar a regulamentação para travar o seu crescimento. As empresas já estão a construir as suas próprias pilhas de IA de código aberto, poupando dinheiro que, de outra forma, poderia financiar empresas como a OpenAI.
A memorando divulgado por um funcionário da Google afirmou que todos os criadores de IA das grandes tecnologias - Google, Microsoft, Anthropic e OpenAI - estão a competir com os criadores de código aberto.
Os programadores de IA de código aberto podem criar e iterar modelos mais rapidamente do que a grande tecnologia, o que lhes permite ultrapassar os modelos de IA convencionais.
Isto não é isento de perigos, uma vez que os modelos de código aberto são difíceis de controlar e regular quando passam para as mãos do público.