Googles Infini-attention giver LLM'er "uendelig" kontekst

15. april 2024

  • Google-forskere udviklede en teknik, der kunne give LLM'er "uendelige" kontekstvinduer
  • Infini-attention hjælper LLM'er med at styre hukommelsen bedre, så de kan behandle lange tekster uden at miste ydeevne
  • Teknikken kan hjælpe mindre AI-modeller med at behandle mere data og løbende lære

Google-forskere har udviklet en teknik kaldet Infini-attention, som gør det muligt for LLM'er at håndtere uendeligt lange tekster uden at øge kravene til beregning og hukommelse.

Transformer-arkitekturen i en LLM er det, der gør det muligt at være opmærksom på alle tokens i en prompt. De komplekse prikprodukt- og matrixmultiplikationer, den udfører, er kvadratiske i kompleksitet.

Det betyder, at hvis du fordobler antallet af tokens i din prompt, skal du bruge fire gange så meget hukommelse og processorkraft. Det er derfor, det er så udfordrende at lave LLM'er med store kontekstvinduer uden at kravene til hukommelse og beregning skyder i vejret.

I en "standard" LLM går information i begyndelsen af prompten tabt, når prompten bliver større end kontekstvinduet. Googles forskningsartikel forklarer, hvordan Infini-attention kan opbevare data uden for kontekstvinduet.

Hvordan virker Infini-attention?

Infini-attention kombinerer komprimerende hukommelsesteknikker med modificerede opmærksomhedsmekanismer, så relevant ældre information ikke går tabt.

Når input-prompten vokser ud over modellens kontekstlængde, gemmer den komprimerende hukommelse information i et komprimeret format i stedet for at kassere den.

Det gør det muligt at gemme ældre, mindre umiddelbart relevante oplysninger, uden at hukommelses- og beregningskravene vokser i det uendelige, når inputtet vokser.

I stedet for at forsøge at fastholde alle de ældre inputinformationer, vejer og opsummerer Infini-attentions komprimerende hukommelse de informationer, der anses for at være relevante og værd at fastholde.

Infini-attention tager så en "vanilje"-opmærksomhedsmekanisme, men genbruger KV-tilstandene (key value) fra hvert efterfølgende segment i modellen i stedet for at kassere dem.

Her er et diagram, der viser forskellen mellem Infini-attention og en anden model med udvidet kontekst, Transformer XL.

Infini-Transformer (øverst) har en hel konteksthistorie, mens Transformer-XL (nederst) kasserer gamle kontekster, da den kun cacher KV-tilstandene for det sidste segment. Kilde: arXiv

Resultatet er en LLM, der giver lokal opmærksomhed til nylige inputdata, men som også har kontinuerligt destillerede, komprimerede historiske data, som den kan bruge til langsigtet opmærksomhed.

Artiklen bemærker, at "Denne subtile, men kritiske ændring af opmærksomhedslaget gør det muligt for LLM'er at behandle uendeligt lange kontekster med begrænsede hukommelses- og beregningsressourcer."

Hvor god er den?

Google kørte benchmarking-tests med mindre 1B- og 8B-parameter Infini-attention-modeller. Disse blev sammenlignet med andre udvidede kontekstmodeller som Transformer-XL og Memorizing Transformers.

Infini-Transformer opnåede betydeligt lavere forvirringsscore end de andre modeller ved behandling af indhold med lang kontekst. En lavere forvirringsscore betyder, at modellen er mere sikker på sine output-forudsigelser.

I "passkey retrieval"-testene fandt Infini-attention-modellerne konsekvent det tilfældige tal, der var skjult i tekst med op til 1 million tokens.

Andre modeller formår ofte at finde adgangskoden mod slutningen af inputtet, men har svært ved at finde den midt i eller i begyndelsen af et langt indhold. Infini-attention havde ingen problemer med denne test.

Benchmarking-testene er meget tekniske, men den korte historie er, at Infini-attention klarede sig bedre end basismodellerne i opsummering og håndtering af lange sekvenser, samtidig med at konteksten blev bevaret over længere perioder.

Det er bemærkelsesværdigt, at den bevarede denne overlegne lagringsevne, mens den krævede 114 gange mindre hukommelse.

Benchmark-resultaterne overbeviser forskerne om, at Infini-attention kan skaleres til at håndtere ekstremt lange input-sekvenser med begrænsede hukommelses- og beregningsressourcer.

Infini-attentions plug-and-play-karakter betyder, at den kan bruges til løbende prætræning og finjustering af eksisterende Transformer-modeller. Dette kan effektivt udvide deres kontekstvinduer uden at kræve fuldstændig omskoling af modellen.

Kontekstvinduer vil blive ved med at vokse, men denne tilgang viser, at en effektiv hukommelse kan være en bedre løsning end et stort bibliotek.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser