A Microsoft lança o Phi-3 Mini, um LM pequeno mas potente

24 de abril de 2024
  • A Microsoft lançou o Phi-3 Mini, o primeiro da sua nova família de modelos de linguagem pequenos (SLM)
  • O Phi-3 Mini é constituído por apenas 3,8 B de parâmetros, mas tem um desempenho melhor do que os modelos com o dobro do seu tamanho
  • A Microsoft afirma que as SLM são soluções ideais para funções específicas, custos mais baixos e utilização offline

A Microsoft lançou o Phi-3 Mini, um modelo de linguagem minúsculo que faz parte da estratégia da empresa para desenvolver modelos de IA leves e com funções específicas.

A evolução dos modelos linguísticos tem-se caracterizado por parâmetros, conjuntos de dados de treino e janelas de contexto cada vez maiores. O aumento do tamanho destes modelos proporcionou capacidades mais poderosas, mas com um custo.

A abordagem tradicional para treinar um LLM consiste em fazê-lo consumir grandes quantidades de dados, o que exige enormes recursos informáticos. Estima-se que a formação de um LLM como o GPT-4, por exemplo, tenha levado cerca de 3 meses e custado mais de $21m.

O GPT-4 é uma óptima solução para tarefas que exigem um raciocínio complexo, mas é um exagero para tarefas mais simples, como a criação de conteúdos ou um chatbot de vendas. É como usar um canivete suíço quando tudo o que precisamos é de um simples abridor de cartas.

Com apenas 3,8B de parâmetros, o Phi-3 Mini é minúsculo. Ainda assim, a Microsoft afirma que é uma solução leve e económica ideal para tarefas como resumir um documento, extrair informações de relatórios e escrever descrições de produtos ou publicações em redes sociais.

Os valores de referência do MMLU mostram que o Phi-3 Mini e os modelos Phi maiores, ainda por lançar, batem modelos maiores como Mistral 7B e Gemma 7B.

Desempenho dos modelos Phi-3 no benchmark Massive Multitask Language Understanding (MMLU) em comparação com outros modelos de tamanho semelhante. Fonte: Microsoft

A Microsoft afirma que o Phi-3-small (parâmetros 7B) e o Phi-3-medium (parâmetros 14B) estarão disponíveis no Catálogo de Modelos de IA do Azure "em breve".

Os modelos maiores, como o GPT-4, continuam a ser o padrão de ouro e podemos provavelmente esperar que o GPT-5 seja ainda maior.

Os SLMs como o Phi-3 Mini oferecem algumas vantagens importantes que os modelos maiores não oferecem. Os SLMs são mais baratos de ajustar, requerem menos computação e podem ser executados no dispositivo mesmo em situações em que não há acesso à Internet.

A implantação de um SLM na borda resulta em menor latência e máxima privacidade, pois não há necessidade de enviar dados para frente e para trás para a nuvem.

Aqui está Sebastien Bubeck, vice-presidente de investigação GenAI na Microsoft AI com uma demonstração do Phi-3 Mini. É super rápido e impressionante para um modelo tão pequeno.

Dados sintéticos seleccionados

O Phi-3 Mini é o resultado do abandono da ideia de que grandes quantidades de dados são a única forma de treinar um modelo.

Sebastien Bubeck, vice-presidente de investigação de IA generativa da Microsoft, perguntou: "Em vez de treinar apenas com dados brutos da Web, porque não procurar dados de qualidade extremamente elevada?"

Ronen Eldan, especialista em aprendizagem automática da Microsoft Research, estava a ler histórias de embalar para a sua filha quando se perguntou se um modelo de linguagem poderia aprender utilizando apenas palavras que uma criança de 4 anos pudesse compreender.

Isto levou a uma experiência em que criaram um conjunto de dados a partir de 3.000 palavras. Utilizando apenas este vocabulário limitado, levaram um LLM a criar milhões de pequenas histórias infantis que foram compiladas num conjunto de dados chamado TinyStories.

Os investigadores utilizaram então o TinyStories para treinar um modelo extremamente pequeno, com 10 milhões de parâmetros, que foi subsequentemente capaz de gerar "narrativas fluentes com uma gramática perfeita".

Continuaram a iterar e a escalar esta abordagem de geração de dados sintéticos para criar conjuntos de dados sintéticos mais avançados, mas cuidadosamente seleccionados e filtrados, que acabaram por ser utilizados para treinar o Phi-3 Mini.

O resultado é um modelo minúsculo que será mais económico e que oferece um desempenho comparável ao GPT-3.5.

Os modelos mais pequenos, mas mais capazes, farão com que as empresas deixem de optar por LLMs de grandes dimensões, como o GPT-4. Em breve, também poderemos ver soluções em que um LLM trata do trabalho pesado, mas delega tarefas mais simples a modelos mais leves.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×
 
 

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI


 

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.



 
 

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições