Mistura de especialistas e dispersão - Explicação de tópicos importantes de IA

12 de dezembro de 2023

O lançamento de modelos de IA mais pequenos e mais eficientes, como o inovador modelo Mixtral 8x7B da Mistral, fez com que os conceitos de "Mistura de Peritos" (MoE) e "Esparsidade" se tornassem temas quentes.

Estes termos passaram dos domínios dos complexos documentos de investigação sobre IA para os artigos noticiosos que relatam a rápida melhoria dos modelos de linguagem de grande dimensão (LLM).

Felizmente, não é necessário ser um cientista de dados para ter uma ideia geral do que são MoE e Sparsity e porque é que estes conceitos são importantes.

Mistura de peritos

Os LLM, como o GPT-3, baseiam-se numa arquitetura de rede densa. Estes modelos são constituídos por camadas de redes neuronais em que cada neurónio de uma camada está ligado a todos os neurónios da camada anterior e das camadas seguintes.

Todos os neurónios estão envolvidos durante o treino, bem como durante a inferência, o processo de gerar uma resposta ao seu pedido. Estes modelos são óptimos para lidar com uma grande variedade de tarefas, mas utilizam muito poder de computação porque todas as partes da sua rede participam no processamento de uma entrada.

Um modelo baseado numa arquitetura MoE divide as camadas num determinado número de "especialistas", sendo cada especialista uma rede neural pré-treinada em funções específicas. Assim, quando se vê um modelo chamado Mixtral 8x7B, significa que tem 8 camadas de peritos com 7 mil milhões de parâmetros cada.

Cada perito é treinado para ser muito bom num aspeto restrito do problema global, tal como os especialistas de uma área.

Uma vez solicitado, uma Gating Network divide o pedido em diferentes tokens e decide qual o perito mais adequado para o processar. Os resultados de cada especialista são então combinados para fornecer o resultado final.

Pense no MdE como tendo um grupo de comerciantes com competências muito específicas para fazer a renovação da sua casa. Em vez de contratar um faz-tudo geral (rede densa) para fazer tudo, pede ao João, o canalizador, para fazer a canalização e ao Pedro, o eletricista, para fazer a eletricidade.

Estes modelos são mais rápidos de treinar porque não é necessário treinar todo o modelo para fazer tudo.

Os modelos MoE também têm uma inferência mais rápida em comparação com os modelos densos com o mesmo número de parâmetros. É por isso que Mixtral 8x7B com um total de 56 mil milhões de parâmetros, pode igualar ou superar o GPT-3.5, que tem 175 mil milhões de parâmetros.

Há rumores de que O GPT-4 utiliza uma arquitetura MoE com 16 peritos, enquanto Gémeos utiliza uma arquitetura densa.

Esparsidade

A esparsidade refere-se à ideia de reduzir o número de elementos activos num modelo, como os neurónios ou os pesos, sem comprometer significativamente o seu desempenho.

Se os dados de entrada para os modelos de IA, como texto ou imagens, contiverem muitos zeros, a técnica de representação de dados esparsos não desperdiça esforços no armazenamento dos zeros.

Numa rede neural esparsa, os pesos, ou a força da ligação entre os neurónios, são frequentemente zero. A esparsidade poda, ou remove, esses pesos para que não sejam incluídos durante o processamento. Um modelo de MdE também é naturalmente esparso porque pode ter um perito envolvido no processamento enquanto os restantes ficam inactivos.

A dispersão pode levar a modelos que são menos intensivos em termos de computação e requerem menos armazenamento. Os modelos de IA que eventualmente funcionem no seu dispositivo dependerão fortemente da dispersão.

Pode pensar-se na esparsidade como ir a uma biblioteca para obter uma resposta a uma pergunta. Se a biblioteca tiver biliões de livros, pode abrir cada livro da biblioteca e, eventualmente, encontrar respostas relevantes em alguns dos livros. É isso que um modelo não esparso faz.

Se nos livrarmos de muitos dos livros que têm maioritariamente páginas em branco ou informações irrelevantes, é mais fácil encontrar os livros relevantes para a nossa pergunta, pelo que abrimos menos livros e encontramos a resposta mais rapidamente.

Se gosta de estar a par dos últimos desenvolvimentos em IA, então espere ver o MoE e o Sparsity mencionados com mais frequência. Os LLM estão prestes a ficar muito mais pequenos e rápidos.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições