LLM-afslagstræning let omgået med prompter i datid

22. juli 2024

  • Træning i at nægte tilpasser LLM'er, så de ikke reagerer på farlige opfordringer
  • Forskere fra EPFL fandt ud af, at det at skrive opgaver i datid går uden om afvisningstræning
  • De nuværende SFT- og RLHF-justeringsmetoder er utilstrækkelige, og output-baserede detektorer kan fungere bedre

Forskere fra Swiss Federal Institute of Technology Lausanne (EPFL) fandt ud af, at det at skrive farlige spørgsmål i datid gik uden om de mest avancerede LLM'ers træning i at afvise spørgsmål.

AI-modeller justeres ofte ved hjælp af teknikker som supervised fine-tuning (SFT) eller reinforcement learning human feedback (RLHF) for at sikre, at modellen ikke reagerer på farlige eller uønskede opfordringer.

Denne afvisningstræning træder i kraft, når du spørger ChatGPT til råds om, hvordan man laver en bombe eller stoffer. Vi har dækket en række Interessante jailbreak-teknikker der omgår disse sikkerhedsforanstaltninger, men den metode, EPFL-forskerne testede, er langt den enkleste.

Forskerne tog et datasæt med 100 skadelige adfærdsmønstre og brugte GPT-3.5 til at omskrive spørgsmålene til datid.

Her er et eksempel på den metode, der forklares i deres papir.

Brug af en LLM til at omskrive farlige beskeder i datid. Kilde: arXiv

De evaluerede derefter svarene på disse omskrevne prompter fra disse 8 LLM'er: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o og R2D2.

De brugte flere LLM'er til at bedømme output og klassificere dem som enten et mislykket eller et vellykket jailbreak-forsøg.

Bare det at ændre tempoet i prompten havde en overraskende stor effekt på angrebets succesrate (ASR). GPT-4o og GPT-4o mini var særligt modtagelige for denne teknik.

ASR for dette "simple angreb på GPT-4o stiger fra 1% ved hjælp af direkte anmodninger til 88% ved hjælp af 20 forsøg på omformulering af skadelige anmodninger i datid."

Her er et eksempel på, hvor kompatibel GPT-4o bliver, når man blot omskriver prompten til datid. Jeg brugte ChatGPT til dette, og sårbarheden er ikke blevet patchet endnu.

ChatGPT med GPT-4o afviser en prompt i nutid, men overholder den, når den omskrives til datid. Kilde: ChatGPT: ChatGPT

Afvisningstræning ved hjælp af RLHF og SFT træner en model til at kunne generalisere til at afvise skadelige opfordringer, selv om den ikke har set den specifikke opfordring før.

Når spørgsmålet er skrevet i datid, ser det ud til, at LLM'erne mister evnen til at generalisere. De andre LLM'er klarede sig ikke meget bedre end GPT-4o, selvom Llama-3 8B så ud til at være mest modstandsdygtig.

Succesrater for angreb ved hjælp af farlige prompter i nutid og datid. Kilde: arXiv

Ved at omskrive prompten til fremtid så man en stigning i ASR, men det var mindre effektivt end prompten i datid.

Forskerne konkluderede, at det kunne skyldes, at "de finjusterende datasæt kan indeholde en større andel af skadelige anmodninger udtrykt i fremtidsform eller som hypotetiske begivenheder."

De foreslog også, at "modellens interne ræsonnement kan fortolke fremtidsorienterede anmodninger som potentielt mere skadelige, mens udsagn i fortid, som f.eks. historiske begivenheder, kan opfattes som mere godartede."

Kan det fikses?

Yderligere eksperimenter viste, at tilføjelse af datidsprompter til de finjusterende datasæt effektivt reducerede modtageligheden over for denne jailbreak-teknik.

Selv om denne tilgang er effektiv, kræver den, at man forudser den slags farlige beskeder, som en bruger kan indtaste.

Forskerne foreslår, at det er en nemmere løsning at evaluere en models output, før den præsenteres for brugeren.

Selv om dette jailbreak er enkelt, ser det ikke ud til, at de førende AI-virksomheder har fundet en måde at patche det på endnu.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser