O Infini-attention da Google dá aos LLM um contexto "infinito

15 de abril de 2024

  • Os investigadores da Google desenvolveram uma técnica que pode dar aos LLMs janelas de contexto "infinitas"
  • O Infini-attention ajuda os LLM a gerir melhor a memória para processar textos longos sem perder desempenho
  • A técnica poderá ajudar os modelos de IA mais pequenos a processar mais dados e a aprender continuamente

Os investigadores da Google desenvolveram uma técnica denominada Infini-attention, que permite aos LLMs tratar textos infinitamente longos sem aumentar os requisitos de computação e memória.

A arquitetura transformadora de um LLM é o que lhe permite dar atenção a todos os símbolos de uma mensagem. O produto escalar complexo e as multiplicações matriciais que efectua são de complexidade quadrática.

Isto significa que duplicar os tokens no seu prompt resulta num requisito de quatro vezes mais memória e poder de processamento. É por isso que é tão difícil fazer LLMs com grandes janelas de contexto sem que os requisitos de memória e computação disparem.

Num LLM "standard", a informação no início do conteúdo do prompt perde-se quando este se torna maior do que a janela de contexto. O sistema trabalho de investigação explica como o Infini-attention pode reter dados para além da janela de contexto.

Como é que o Infini-attention funciona?

O Infini-attention combina técnicas de memória compressiva com mecanismos de atenção modificados para que não se percam informações relevantes mais antigas.

Quando o pedido de entrada ultrapassa o comprimento do contexto do modelo, a memória de compressão armazena a informação num formato comprimido em vez de a descartar.

Isto permite que informações mais antigas e menos imediatamente relevantes sejam armazenadas sem que os requisitos de memória e computação cresçam indefinidamente à medida que a entrada aumenta.

Em vez de tentar reter toda a informação de entrada mais antiga, a memória de compressão do Infini-attention pesa e resume a informação que é considerada relevante e que vale a pena reter.

O Infini-attention utiliza um mecanismo de atenção "normal", mas reutiliza os estados de valor-chave (KV) de cada segmento subsequente do modelo, em vez de os descartar.

Aqui está um diagrama que mostra a diferença entre o Infini-attention e outro modelo de contexto alargado, o Transformer XL.

O Infini-Transformer (em cima) tem um histórico de contexto completo, enquanto o Transformer-XL (em baixo) descarta contextos antigos, uma vez que armazena em cache os estados KV apenas para o último segmento. Fonte: arXiv

O resultado é uma LLM que dá atenção local a dados de entrada recentes, mas também transporta dados históricos comprimidos continuamente destilados aos quais pode aplicar atenção a longo prazo.

O artigo refere que "esta modificação subtil mas crítica da camada de atenção permite que os LLM processem contextos infinitamente longos com recursos limitados de memória e computação".

É muito bom?

A Google efectuou testes de avaliação comparativa utilizando modelos Infini-attention de parâmetros 1B e 8B mais pequenos. Estes foram comparados com outros modelos de contexto alargado, como o Transformer-XL e o Memorizing Transformers.

O Infini-Transformer obteve pontuações de perplexidade significativamente mais baixas do que os outros modelos ao processar conteúdos de texto longo. Uma pontuação de perplexidade mais baixa significa que o modelo está mais seguro das suas previsões de resultados.

Nos testes de "recuperação de chaves de acesso", os modelos Infini-attention encontraram consistentemente o número aleatório escondido num texto com até 1 milhão de tokens.

Outros modelos conseguem frequentemente recuperar a chave de acesso no final da introdução, mas têm dificuldade em encontrá-la no meio ou no início de conteúdos longos. O Infini-attention não teve problemas com este teste.

Os testes de avaliação comparativa são muito técnicos, mas a história resumida é que o Infini-attention superou os modelos de base no resumo e tratamento de sequências longas, mantendo o contexto durante longos períodos.

Significativamente, manteve esta capacidade de retenção superior, exigindo 114 vezes menos memória.

Os resultados do benchmark convencem os investigadores de que o Infini-attention pode ser dimensionado para lidar com sequências de entrada extremamente longas, mantendo a memória e os recursos computacionais limitados.

A natureza plug-and-play do Infini-attention significa que pode ser utilizado para pré-treino e afinação contínuos dos modelos Transformer existentes. Isto poderia efetivamente alargar as suas janelas de contexto sem exigir uma reciclagem completa do modelo.

As janelas de contexto continuarão a crescer, mas esta abordagem mostra que uma memória eficiente pode ser uma solução melhor do que uma grande biblioteca.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições