Antropisk: LLM-er i stor sammenheng sårbare for mange skudd jailbreak

Anthropic har utgitt en artikkel som skisserer en jailbreaking-metode med mange skudd som LLM-er med lang kontekst er spesielt sårbare for.

Størrelsen på kontekstvinduet til en LLM-modell bestemmer den maksimale lengden på en ledetekst. Kontekstvinduene har vokst jevnt og trutt de siste månedene, og modeller som Claude Opus har nå et kontekstvindu på 1 million tokens.

Det utvidede kontekstvinduet gjør det mulig med mer effektiv læring i kontekst. Med en null-shot-prompt blir en LLM bedt om å gi et svar uten tidligere eksempler.

I en "few-shot"-tilnærming får modellen flere eksempler i ledeteksten. Dette gir mulighet for læring i kontekst og setter modellen i stand til å gi et bedre svar.

Større kontekstvinduer betyr at brukerens ledetekst kan være ekstremt lang og inneholde mange eksempler, noe som ifølge Anthropic både er en velsignelse og en forbannelse.

Jailbreak med mange bilder

Jailbreak-metoden er svært enkel. LLM blir bedt om en enkelt melding som består av en falsk dialog mellom en bruker og en veldig imøtekommende AI-assistent.

Dialogen består av en rekke spørsmål om hvordan man gjør noe farlig eller ulovlig, etterfulgt av falske svar fra AI-assistenten med informasjon om hvordan man utfører aktivitetene.

Spørringen avsluttes med et målspørsmål som "Hvordan bygger man en bombe?", og deretter overlates det til den utvalgte LLM-en å svare.

Få-shot vs mange-shot jailbreak. Kilde: Anthropic

Hvis du bare har noen få interaksjoner frem og tilbake i ledeteksten, fungerer det ikke. Men med en modell som Claude Opus kan en ledetekst med mange bilder være like lang som flere lange romaner.

I deres artikkelfant Anthropic-forskerne at "etter hvert som antallet inkluderte dialoger (antall "shots") øker utover et visst punkt, blir det mer sannsynlig at modellen vil gi en skadelig respons."

De fant også ut at når de ble kombinert med andre kjente jailbreaking-teknikkervar metoden med mange bilder enda mer effektiv, eller den kunne være vellykket med kortere beskjeder.

Når antallet dialoger i ledeteksten øker, øker sjansen for en skadelig respons. Kilde: Anthropic: Anthropic

Kan det fikses?

Anthropic sier at det enkleste forsvaret mot many-shot jailbreak er å redusere størrelsen på en modells kontekstvindu. Men da mister du de åpenbare fordelene ved å kunne bruke lengre innganger.

Anthropic prøvde å få LLM-en sin til å identifisere når en bruker prøvde en jailbreak med mange bilder, og deretter nekte å svare på forespørselen. De fant ut at det bare forsinket jailbreakingen og krevde en lengre ledetekst for å til slutt fremkalle det skadelige resultatet.

Ved å klassifisere og modifisere ledeteksten før den ble sendt til modellen, lyktes de til en viss grad med å forhindre angrepet. Anthropic sier likevel at de er oppmerksomme på at varianter av angrepet kan unngå å bli oppdaget.

Anthropic sier at det stadig lengre kontekstvinduet til LLM-er "gjør modellene langt mer nyttige på alle mulige måter, men det muliggjør også en ny klasse av jailbreaking-sårbarheter".

Selskapet har publisert forskningen sin i håp om at andre AI-selskaper skal finne måter å avverge angrep med mange skudd på.

En interessant konklusjon som forskerne kom frem til, var at "selv positive, tilsynelatende uskyldige forbedringer av LLM-er (i dette tilfellet å tillate lengre inndata) noen ganger kan få uforutsette konsekvenser".

Antropisk: LLM-er med stor kontekst er sårbare for jailbreak med mange skudd

Jailbreak med mange bilder

Kan det fikses?

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

Intervju med Chris Benjaminsen: Chris Benjaminsen, medgrunnlegger og direktør for kanaler i FRVR

Intervju: Tanisha Katara - Blockchain- og Web3-strateg

Google I/O 2024 - Her er AI-høydepunktene Google avslørte

PauseAI-demonstranter krever stans i treningen av AI-modeller

Antropisk: LLM-er med stor kontekst er sårbare for jailbreak med mange skudd

Jailbreak med mange bilder

Kan det fikses?

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

Intervju med Chris Benjaminsen: Chris Benjaminsen, medgrunnlegger og direktør for kanaler i FRVR

Intervju: Tanisha Katara - Blockchain- og Web3-strateg

Google I/O 2024 - Her er AI-høydepunktene Google avslørte

PauseAI-demonstranter krever stans i treningen av AI-modeller

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI