Antropisk: LLM-er med stor kontekst er sårbare for jailbreak med mange skudd

5. april 2024

Anthropic har utgitt en artikkel som skisserer en jailbreaking-metode med mange skudd som LLM-er med lang kontekst er spesielt sårbare for.

Størrelsen på kontekstvinduet til en LLM-modell bestemmer den maksimale lengden på en ledetekst. Kontekstvinduene har vokst jevnt og trutt de siste månedene, og modeller som Claude Opus har nå et kontekstvindu på 1 million tokens.

Det utvidede kontekstvinduet gjør det mulig med mer effektiv læring i kontekst. Med en null-shot-prompt blir en LLM bedt om å gi et svar uten tidligere eksempler.

I en "few-shot"-tilnærming får modellen flere eksempler i ledeteksten. Dette gir mulighet for læring i kontekst og setter modellen i stand til å gi et bedre svar.

Større kontekstvinduer betyr at brukerens ledetekst kan være ekstremt lang og inneholde mange eksempler, noe som ifølge Anthropic både er en velsignelse og en forbannelse.

Jailbreak med mange bilder

Jailbreak-metoden er svært enkel. LLM blir bedt om en enkelt melding som består av en falsk dialog mellom en bruker og en veldig imøtekommende AI-assistent.

Dialogen består av en rekke spørsmål om hvordan man gjør noe farlig eller ulovlig, etterfulgt av falske svar fra AI-assistenten med informasjon om hvordan man utfører aktivitetene.

Spørringen avsluttes med et målspørsmål som "Hvordan bygger man en bombe?", og deretter overlates det til den utvalgte LLM-en å svare.

Få-shot vs mange-shot jailbreak. Kilde: Anthropic

Hvis du bare har noen få interaksjoner frem og tilbake i ledeteksten, fungerer det ikke. Men med en modell som Claude Opus kan en ledetekst med mange bilder være like lang som flere lange romaner.

I deres artikkelfant Anthropic-forskerne at "etter hvert som antallet inkluderte dialoger (antall "shots") øker utover et visst punkt, blir det mer sannsynlig at modellen vil gi en skadelig respons."

De fant også ut at når de ble kombinert med andre kjente jailbreaking-teknikkervar metoden med mange bilder enda mer effektiv, eller den kunne være vellykket med kortere beskjeder.

Når antallet dialoger i ledeteksten øker, øker sjansen for en skadelig respons. Kilde: Anthropic: Anthropic

Kan det fikses?

Anthropic sier at det enkleste forsvaret mot many-shot jailbreak er å redusere størrelsen på en modells kontekstvindu. Men da mister du de åpenbare fordelene ved å kunne bruke lengre innganger.

Anthropic prøvde å få LLM-en sin til å identifisere når en bruker prøvde en jailbreak med mange bilder, og deretter nekte å svare på forespørselen. De fant ut at det bare forsinket jailbreakingen og krevde en lengre ledetekst for å til slutt fremkalle det skadelige resultatet.

Ved å klassifisere og modifisere ledeteksten før den ble sendt til modellen, lyktes de til en viss grad med å forhindre angrepet. Anthropic sier likevel at de er oppmerksomme på at varianter av angrepet kan unngå å bli oppdaget.

Anthropic sier at det stadig lengre kontekstvinduet til LLM-er "gjør modellene langt mer nyttige på alle mulige måter, men det muliggjør også en ny klasse av jailbreaking-sårbarheter".

Selskapet har publisert forskningen sin i håp om at andre AI-selskaper skal finne måter å avverge angrep med mange skudd på.

En interessant konklusjon som forskerne kom frem til, var at "selv positive, tilsynelatende uskyldige forbedringer av LLM-er (i dette tilfellet å tillate lengre inndata) noen ganger kan få uforutsette konsekvenser".

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser