Googles Infini-attention ger juristerna ett "oändligt" sammanhang

15 april 2024

  • Google-forskare utvecklade en teknik som kan ge LLM:er "oändliga" kontextfönster
  • Infini-attention hjälper LLM:er att hantera minnet bättre för att bearbeta långa texter utan att tappa prestanda
  • Tekniken kan hjälpa mindre AI-modeller att bearbeta mer data och kontinuerligt lära sig

Googles forskare utvecklade en teknik som kallas Infini-attention, som gör det möjligt för LLM:er att hantera oändligt långa texter utan att öka beräknings- och minneskraven.

Transformatorarkitekturen i en LLM är det som gör att den kan uppmärksamma alla tokens i en prompt. De komplexa punktprodukt- och matrismultiplikationerna som den utför är kvadratiska i komplexitet.

Det innebär att om du fördubblar antalet tokens i din prompt krävs det fyra gånger mer minne och processorkraft. Det är därför det är så utmanande att göra LLM:er med stora kontextfönster utan att minnes- och beräkningskraven skjuter i höjden.

I en "vanlig" LLM går informationen i början av promptens innehåll förlorad när prompten blir större än kontextfönstret. Googles forskningsrapport förklarar hur Infini-attention kan lagra data utanför kontextfönstret.

Hur fungerar Infini-attention?

Infini-attention kombinerar komprimerande minnestekniker med modifierade uppmärksamhetsmekanismer så att relevant äldre information inte går förlorad.

När inmatningsuppmaningen blir större än modellens kontextlängd lagrar det komprimerande minnet informationen i ett komprimerat format i stället för att kassera den.

Detta gör att äldre, mindre omedelbart relevant information kan lagras utan att minnes- och beräkningskraven växer i oändlighet i takt med att inmatningen växer.

I stället för att försöka hålla kvar all äldre information väger Infini-attentions komprimerande minne samman och sammanfattar information som bedöms vara relevant och värd att hålla kvar.

Infini-attention utgår från en "vanilj"-uppmärksamhetsmekanism men återanvänder KV-tillstånden (key value) från varje efterföljande segment i modellen i stället för att förkasta dem.

Här är ett diagram som visar skillnaden mellan Infini-attention och en annan modell med utökad kontext, Transformer XL.

Infini-Transformer (överst) har en hel kontexthistorik medan Transformer-XL (nederst) kasserar gamla kontexter eftersom den bara lagrar KV-tillstånden för det sista segmentet. Källa: arXiv

Resultatet är en LLM som ger lokal uppmärksamhet åt nya indata, men som också har kontinuerligt destillerad komprimerad historisk data som den kan ge långsiktig uppmärksamhet.

I artikeln konstateras att "denna subtila men kritiska modifiering av uppmärksamhetsskiktet gör det möjligt för LLM att bearbeta oändligt långa sammanhang med begränsade minnes- och beräkningsresurser".

Hur bra är den?

Google genomförde benchmarkingtester med mindre Infini-attention-modeller med 1B- och 8B-parametrar. Dessa jämfördes med andra modeller med utökat sammanhang som Transformer-XL och Memorizing Transformers.

Infini-Transformer uppnådde betydligt lägre perplexitetspoäng än de andra modellerna vid bearbetning av innehåll med långa kontexter. En lägre perplexitetspoäng innebär att modellen är mer säker på sina förutsägelser av utdata.

I "passkey retrieval"-testerna hittade Infini-attention-modellerna konsekvent det slumpmässiga talet som var gömt i text med upp till 1 miljon symboler.

Andra modeller klarar ofta av att hämta nyckeln mot slutet av inmatningen men har svårt att hitta den i mitten eller början av ett långt innehåll. Infini-attention hade inga problem med detta test.

Benchmarktesterna är mycket tekniska, men den korta historien är att Infini-attention överträffade baslinjemodellerna när det gäller att sammanfatta och hantera långa sekvenser samtidigt som sammanhanget bevarades under längre perioder.

Betecknande nog behöll den denna överlägsna lagringsförmåga samtidigt som den krävde 114 gånger mindre minne.

Benchmarkresultaten övertygar forskarna om att Infini-attention kan skalas upp för att hantera extremt långa indatasekvenser med begränsade minnes- och beräkningsresurser.

Infini-attentions "plug-and-play"-karaktär innebär att den kan användas för kontinuerlig förträning och finjustering av befintliga Transformer-modeller. Detta skulle effektivt kunna utöka deras kontextfönster utan att kräva fullständig omskolning av modellen.

Kontextfönstren kommer att fortsätta växa, men den här metoden visar att ett effektivt minne kan vara en bättre lösning än ett stort bibliotek.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar