Uma nova abordagem pode tornar os modelos linguísticos de grande dimensão 300 vezes mais rápidos

6 de dezembro de 2023

Cientistas da ETH Zurich descobriram que os modelos de linguagem de grande dimensão (LLM) só precisam de utilizar uma pequena fração dos seus neurónios para inferências individuais. A sua nova abordagem promete fazer com que os LLM funcionem muito mais depressa.

Para começar a compreender como conseguiram acelerar os modelos de IA, precisamos de ter uma ideia aproximada de alguns dos aspectos técnicos que constituem um modelo de linguagem de IA.

Os modelos de IA como o GPT ou o Llama são constituídos por redes feedforward, um tipo de rede neural artificial.

As redes feedforward (FF) estão normalmente organizadas em camadas, sendo que cada camada de neurónios recebe a entrada da camada anterior e envia a sua saída para a camada seguinte.

Isto envolve a multiplicação de matrizes densas (DMM), que exige que cada neurónio na FF efectue cálculos em todas as entradas da camada anterior. E é por isso que A Nvidia vende tantas das suas GPUs porque este processo requer muito poder de processamento.

Os investigadores utilizou as redes Fast Feedforward (FFF) para tornar este processo muito mais rápido. Uma FFF pega em cada camada de neurónios, divide-a em blocos e depois selecciona apenas os blocos mais relevantes com base na entrada. Este processo equivale a efetuar uma multiplicação condicional de matrizes (CMM).

Isto significa que, em vez de todos os neurónios de uma camada estarem envolvidos no cálculo, apenas uma pequena fração está envolvida.

Pense nisto como separar uma pilha de correio para encontrar uma carta destinada a si. Em vez de ler o nome e a morada em todas as cartas, pode começar por ordená-las por código postal e depois concentrar-se apenas nas cartas da sua área.

Da mesma forma, os FFF identificam apenas os poucos neurónios necessários para cada cálculo, o que resulta em apenas uma fração do processamento necessário em comparação com os FF tradicionais.

Quanto mais rápido?

Os investigadores testaram o seu método numa variante do modelo BERT da Google a que chamaram UltraFastBERT. O UltraFastBERT é composto por 4095 neurónios, mas envolve seletivamente apenas 12 neurónios para cada inferência de camada.

Isto significa que o UltraFastBERT requer que cerca de 0,03% dos seus neurónios estejam envolvidos no processamento durante a inferência, enquanto o BERT normal necessitaria de 100% dos seus neurónios envolvidos no cálculo.

Teoricamente, isto significa que o UltraFastBERT seria 341x mais rápido do que o BERT ou o GPT-3.

Porque é que dizemos "teoricamente" quando os investigadores nos garantem que o seu método funciona? Porque tiveram de criar uma solução de software para que o seu FFF funcionasse com o BERT e só conseguiram uma melhoria de 78x na velocidade durante os testes reais.

É um segredo

O documento de investigação explicava que "a multiplicação de matrizes densas é a operação matemática mais optimizada na história da computação. Foi feito um enorme esforço para conceber memórias, chips, conjuntos de instruções e rotinas de software que a executam o mais rapidamente possível. Muitos destes avanços foram... mantidos confidenciais e expostos ao utilizador final apenas através de interfaces de programação poderosas mas restritivas."

Basicamente, estão a dizer que os engenheiros que descobriram as formas mais eficientes de fazer o processamento da matemática necessária para as redes FF tradicionais mantêm o seu software e algoritmos de baixo nível em segredo e não permitem que se veja o seu código.

Se os cérebros por detrás dos projectos das GPUs Intel ou Nvidia permitissem o acesso a código de baixo nível para implementar redes FFF em modelos de IA, então a melhoria de velocidade de 341x poderia ser uma realidade.

Mas será que o vão fazer? Se pudessem conceber as vossas GPUs de modo a que as pessoas pudessem comprar menos 99,7% delas para fazer a mesma quantidade de processamento, fá-lo-iam? A economia terá alguma influência nesta questão, mas as redes FFF podem representar o próximo salto gigante na IA.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições