System 2 Attention förbättrar noggrannheten i LLM-svaren

23 november 2023

Stora språkmodeller (LLM) vilseleds ofta av partiskhet eller irrelevant sammanhang i en prompt. Forskare vid Meta har hittat ett till synes enkelt sätt att fixa det.

När kontextfönstren ökar kan de uppmaningar som vi ger till en LLM bli längre och alltmer detaljerade. LLM:erna har blivit bättre på att uppfatta nyanser eller mindre detaljer i våra uppmaningar, men ibland kan detta förvirra dem.

Tidig maskininlärning använde en "hård uppmärksamhet" -metod som valde ut den mest relevanta delen av en inmatning och svarade endast på den. Detta fungerar bra när du försöker skriva en bildtext, men dåligt när du översätter en mening eller svarar på en fråga med flera lager.

De flesta LLM-utbildare använder nu en metod med "mjuk uppmärksamhet" som innebär att hela frågeformuläret tas upp som symboler och att varje symbol viktas.

Meta föreslår ett tillvägagångssätt som kallas System 2 Uppmärksamhet (S2A) för att få det bästa av två världar. S2A använder en LLM:s förmåga att bearbeta naturligt språk för att ta emot din fråga och rensa bort partisk och irrelevant information innan du börjar arbeta med ett svar.

Här är ett exempel.

Exempel på S2A-matematik. Källa: arXiv

S2A tar bort informationen om Max eftersom den är irrelevant för frågan. S2A återskapar en optimerad prompt innan han börjar arbeta med den. LLM:er är notoriskt dåliga på matematik så att göra uppmaningen mindre förvirrande är en stor hjälp.

LLM:er är tillmötesgående och håller gärna med dig, även när du har fel. S2A tar bort alla fördomar i en fråga och bearbetar sedan bara de relevanta delarna av frågan. Detta minskar det som AI-forskare kallar "sycophancy", eller en AI-modells benägenhet att kyssa rumpan.

S2A minskning av sycophancy. Källa: arXiv

S2A är egentligen bara en systemprompt som instruerar LLM att förfina den ursprungliga prompten lite innan de börjar arbeta med den. De resultat som forskarna uppnådde med matematik-, fakta- och långformsfrågor var imponerande.

Som exempel kan nämnas de förbättringar S2A uppnådde på faktafrågor. Baslinjen var svar på frågor som innehöll partiskhet, medan Oracle-frågan var en mänskligt förfinad idealfråga.

S2A kommer mycket nära resultaten från Oracle-prompten och ger nästan 50% förbättring av noggrannheten jämfört med baslinjeprompten.

S2A Jämförelse av resultat. Källa: arXiv

Så vad är haken? Förbehandlingen av den ursprungliga frågan innan den besvaras innebär att ytterligare beräkningskrav tillkommer i processen. Om frågan är lång och innehåller mycket relevant information kan det innebära betydande kostnader att återskapa frågan.

Det är inte troligt att användarna blir bättre på att skriva välformulerade uppmaningar, så S2A kan vara ett bra sätt att komma runt det.

Kommer Meta att bygga in S2A i sin Lama modell? Vi vet inte, men du kan själv använda dig av S2A-metoden.

Om du är noga med att utelämna åsikter eller ledande förslag från dina uppmaningar är det mer sannolikt att du får korrekta svar från dessa modeller.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar