Antropisk: LLM'er med stor kontekst er sårbare over for jailbreak med mange skud

5. april 2024

Anthropic har udgivet en artikel, der beskriver en jailbreaking-metode med mange skud, som LLM'er med lang kontekst er særligt sårbare over for.

Størrelsen på en LLM's kontekstvindue bestemmer den maksimale længde af en prompt. Kontekstvinduer er vokset konstant i løbet af de sidste par måneder, hvor modeller som Claude Opus har nået et kontekstvindue på 1 million tokens.

Det udvidede kontekstvindue giver mulighed for mere effektiv læring i konteksten. Med en zero-shot-prompt bliver en LLM bedt om at give et svar uden forudgående eksempler.

I en "few-shot"-tilgang får modellen flere eksempler i prompten. Det giver mulighed for læring i konteksten og sætter modellen i stand til at give et bedre svar.

Større kontekstvinduer betyder, at en brugers prompt kan være ekstremt lang med mange eksempler, hvilket ifølge Anthropic både er en velsignelse og en forbandelse.

Jailbreak med mange billeder

Jailbreak-metoden er meget enkel. LLM bliver bedt om at bruge en enkelt prompt, der består af en falsk dialog mellem en bruger og en meget imødekommende AI-assistent.

Dialogen består af en række forespørgsler om, hvordan man gør noget farligt eller ulovligt, efterfulgt af falske svar fra AI-assistenten med oplysninger om, hvordan man udfører aktiviteterne.

Prompten slutter med en målforespørgsel som "Hvordan bygger man en bombe?" og lader det derefter være op til den udvalgte LLM at svare.

Få skud mod mange skud jailbreak. Kilde: Anthropic

Hvis du kun havde nogle få interaktioner frem og tilbage i oplægget, ville det ikke fungere. Men med en model som Claude Opus kan den mange billeder lange opfordring være lige så lang som flere lange romaner.

I deres artikelAnthropic-forskerne fandt ud af, at "når antallet af inkluderede dialoger (antallet af "skud") stiger ud over et vist punkt, bliver det mere sandsynligt, at modellen vil give en skadelig reaktion."

De fandt også ud af, at når de blev kombineret med andre kendte jailbreaking-teknikkervar tilgangen med mange skud endnu mere effektiv eller kunne være en succes med kortere prompts.

Når antallet af dialoger i prompten stiger, øges chancerne for et skadeligt svar. Kilde: Anthropic: Anthropic

Kan det fikses?

Anthropic siger, at det nemmeste forsvar mod many-shot jailbreak er at reducere størrelsen på en models kontekstvindue. Men så mister man de åbenlyse fordele ved at kunne bruge længere input.

Anthropic forsøgte at få deres LLM til at identificere, hvornår en bruger forsøgte sig med et many-shot jailbreak, og derefter nægte at besvare forespørgslen. De fandt ud af, at det blot forsinkede jailbreaket og krævede en længere prompt for til sidst at fremkalde det skadelige output.

Ved at klassificere og modificere beskeden, før den blev sendt til modellen, havde de en vis succes med at forhindre angrebet. Alligevel siger Anthropic, at de er opmærksomme på, at variationer af angrebet kan undgå at blive opdaget.

Anthropic siger, at det stadigt længere kontekstvindue for LLM'er "gør modellerne langt mere nyttige på alle mulige måder, men det muliggør også en ny klasse af jailbreaking-sårbarheder."

Virksomheden har offentliggjort sin forskning i håb om, at andre AI-virksomheder finder måder at afbøde many-shot-angreb på.

En interessant konklusion, som forskerne kom frem til, var, at "selv positive, uskyldigt udseende forbedringer af LLM'er (i dette tilfælde at give mulighed for længere input) nogle gange kan have uforudsete konsekvenser."

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×
 
 

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI


 

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.



 
 

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser