L'Infini-attention de Google offre un contexte "infini" aux étudiants en master de droit

15 avril 2024

  • Les chercheurs de Google ont mis au point une technique permettant de donner aux LLM des fenêtres contextuelles "infinies".
  • L'infini-attention aide les LLM à mieux gérer leur mémoire pour traiter des textes longs sans perdre en performance
  • Cette technique pourrait aider les petits modèles d'IA à traiter davantage de données et à apprendre en permanence.

Les chercheurs de Google ont mis au point une technique appelée Infini-attention, qui permet aux LLM de traiter des textes infiniment longs sans augmenter les besoins en calcul et en mémoire.

L'architecture du transformateur d'un LLM est ce qui lui permet d'accorder de l'attention à tous les jetons d'une invite. Le produit point complexe et les multiplications matricielles qu'il effectue sont d'une complexité quadratique.

Cela signifie qu'en doublant le nombre de jetons dans votre invite, vous aurez besoin de quatre fois plus de mémoire et de puissance de traitement. C'est la raison pour laquelle il est si difficile de faire des LLM avec des grandes fenêtres contextuelles sans que les exigences en matière de mémoire et de calcul ne montent en flèche.

Dans un LLM "standard", les informations au début du contenu de l'invite sont perdues une fois que l'invite devient plus grande que la fenêtre contextuelle. La méthode de Google document de recherche explique comment Infini-attention peut conserver des données au-delà de la fenêtre contextuelle.

Comment fonctionne Infini-attention ?

L'infini-attention combine des techniques de mémoire compressive avec des mécanismes d'attention modifiés, de sorte que les informations pertinentes plus anciennes ne sont pas perdues.

Une fois que l'invite d'entrée dépasse la longueur de contexte du modèle, la mémoire compressive stocke l'information dans un format compressé au lieu de la rejeter.

Cela permet de stocker des informations plus anciennes, moins immédiatement pertinentes, sans que les besoins en mémoire et en calcul n'augmentent indéfiniment au fur et à mesure que les données augmentent.

Au lieu d'essayer de retenir toutes les anciennes informations, la mémoire compressive d'Infini-attention pèse et résume les informations jugées pertinentes et dignes d'être retenues.

Infini-attention reprend alors un mécanisme d'attention "vanille", mais réutilise les états de valeur clé (KV) de chaque segment ultérieur du modèle au lieu de les rejeter.

Voici un diagramme qui montre la différence entre Infini-attention et un autre modèle de contexte étendu, Transformer XL.

Infini-Transformer (en haut) dispose d'un historique complet du contexte alors que Transformer-XL (en bas) se débarrasse des anciens contextes puisqu'il met en cache les états KV pour le dernier segment seulement. Source : arXiv

Le résultat est un LLM qui accorde une attention locale aux données d'entrée récentes, mais qui contient également des données historiques compressées et distillées en continu auxquelles il peut accorder une attention à long terme.

L'article indique que "cette modification subtile mais essentielle de la couche d'attention permet aux LLM de traiter des contextes infiniment longs avec des ressources limitées en termes de mémoire et de calcul".

Quelle est sa qualité ?

Google a effectué des tests d'évaluation comparative en utilisant des modèles Infini-attention à 1B et 8B paramètres plus petits. Ceux-ci ont été comparés à d'autres modèles de contexte étendu tels que Transformer-XL et Memorizing Transformers.

Le transformateur Infini-Transformer a obtenu des scores de perplexité nettement inférieurs à ceux des autres modèles lors du traitement de contenus à contexte long. Un score de perplexité inférieur signifie que le modèle est plus sûr de ses prédictions de sortie.

Dans les tests de "récupération de clés", les modèles Infini-attention ont systématiquement trouvé le nombre aléatoire caché dans un texte comportant jusqu'à 1 million de mots.

D'autres modèles parviennent souvent à récupérer la clé vers la fin de la saisie, mais peinent à la trouver au milieu ou au début d'un long contenu. Infini-attention n'a eu aucun problème avec ce test.

Les tests d'étalonnage sont très techniques, mais l'essentiel est qu'Infini-attention a surpassé les modèles de base pour résumer et traiter de longues séquences tout en maintenant le contexte sur des périodes prolongées.

De manière significative, il a conservé cette capacité de rétention supérieure tout en nécessitant 114 fois moins de mémoire.

Les résultats de l'analyse comparative ont convaincu les chercheurs qu'Infini-attention pouvait être mis à l'échelle pour traiter des séquences d'entrée extrêmement longues tout en limitant les ressources de mémoire et de calcul.

La nature "plug-and-play" d'Infini-attention signifie qu'il pourrait être utilisé pour le pré-entraînement continu et le réglage fin des modèles Transformer existants. Cela permettrait d'étendre efficacement leurs fenêtres contextuelles sans nécessiter un réentraînement complet du modèle.

Les fenêtres contextuelles continueront de croître, mais cette approche montre qu'une mémoire efficace peut être une meilleure solution qu'une grande bibliothèque.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation