Anthropic har udgivet en artikel, der beskriver en jailbreaking-metode med mange skud, som LLM'er med lang kontekst er særligt sårbare over for.
Størrelsen på en LLM's kontekstvindue bestemmer den maksimale længde af en prompt. Kontekstvinduer er vokset konstant i løbet af de sidste par måneder, hvor modeller som Claude Opus har nået et kontekstvindue på 1 million tokens.
Det udvidede kontekstvindue giver mulighed for mere effektiv læring i konteksten. Med en zero-shot-prompt bliver en LLM bedt om at give et svar uden forudgående eksempler.
I en "few-shot"-tilgang får modellen flere eksempler i prompten. Det giver mulighed for læring i konteksten og sætter modellen i stand til at give et bedre svar.
Større kontekstvinduer betyder, at en brugers prompt kan være ekstremt lang med mange eksempler, hvilket ifølge Anthropic både er en velsignelse og en forbandelse.
Jailbreak med mange billeder
Jailbreak-metoden er meget enkel. LLM bliver bedt om at bruge en enkelt prompt, der består af en falsk dialog mellem en bruger og en meget imødekommende AI-assistent.
Dialogen består af en række forespørgsler om, hvordan man gør noget farligt eller ulovligt, efterfulgt af falske svar fra AI-assistenten med oplysninger om, hvordan man udfører aktiviteterne.
Prompten slutter med en målforespørgsel som "Hvordan bygger man en bombe?" og lader det derefter være op til den udvalgte LLM at svare.
Hvis du kun havde nogle få interaktioner frem og tilbage i oplægget, ville det ikke fungere. Men med en model som Claude Opus kan den mange billeder lange opfordring være lige så lang som flere lange romaner.
I deres artikelAnthropic-forskerne fandt ud af, at "når antallet af inkluderede dialoger (antallet af "skud") stiger ud over et vist punkt, bliver det mere sandsynligt, at modellen vil give en skadelig reaktion."
De fandt også ud af, at når de blev kombineret med andre kendte jailbreaking-teknikkervar tilgangen med mange skud endnu mere effektiv eller kunne være en succes med kortere prompts.
Kan det fikses?
Anthropic siger, at det nemmeste forsvar mod many-shot jailbreak er at reducere størrelsen på en models kontekstvindue. Men så mister man de åbenlyse fordele ved at kunne bruge længere input.
Anthropic forsøgte at få deres LLM til at identificere, hvornår en bruger forsøgte sig med et many-shot jailbreak, og derefter nægte at besvare forespørgslen. De fandt ud af, at det blot forsinkede jailbreaket og krævede en længere prompt for til sidst at fremkalde det skadelige output.
Ved at klassificere og modificere beskeden, før den blev sendt til modellen, havde de en vis succes med at forhindre angrebet. Alligevel siger Anthropic, at de er opmærksomme på, at variationer af angrebet kan undgå at blive opdaget.
Anthropic siger, at det stadigt længere kontekstvindue for LLM'er "gør modellerne langt mere nyttige på alle mulige måder, men det muliggør også en ny klasse af jailbreaking-sårbarheder."
Virksomheden har offentliggjort sin forskning i håb om, at andre AI-virksomheder finder måder at afbøde many-shot-angreb på.
En interessant konklusion, som forskerne kom frem til, var, at "selv positive, uskyldigt udseende forbedringer af LLM'er (i dette tilfælde at give mulighed for længere input) nogle gange kan have uforudsete konsekvenser."