LLM-veiledningen omgås enkelt med prompter i fortid

22. juli 2024

  • Opplæring i å nekte å reagere gjør at LLM-ene ikke reagerer på farlige oppfordringer
  • Forskere fra EPFL fant ut at det å skrive beskjeder i fortid gjør at man ikke trenger å trene på å nekte
  • Dagens SFT- og RLHF-justeringsmetoder er utilstrekkelige, og utgangsbaserte detektorer kan gi bedre resultater

Forskere fra Swiss Federal Institute of Technology Lausanne (EPFL) fant ut at det å skrive farlige spørsmål i datid gikk utenom nektelsestreningen til de mest avanserte LLM-ene.

AI-modeller justeres ofte ved hjelp av teknikker som SFT (supervised fine-tuning) eller RLHF (reinforcement learning human feedback) for å sikre at modellen ikke reagerer på farlige eller uønskede beskjeder.

Denne nektelsestreningen setter inn når du spør ChatGPT om råd om hvordan du lager en bombe eller narkotika. Vi har dekket en rekke interessante jailbreak-teknikker Det finnes flere metoder for å omgå disse sikkerhetsmekanismene, men metoden EPFL-forskerne testet, er den aller enkleste.

Forskerne tok et datasett med 100 skadelige atferdsmønstre og brukte GPT-3.5 til å omskrive spørsmålene til datid.

Her er et eksempel på metoden som er forklart i avisen deres.

Bruk av LLM til å omskrive farlige beskjeder til fortid. Kilde: arXiv

Deretter evaluerte de svarene på disse omskrevne instruksjonene fra disse åtte LLM-ene: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o og R2D2.

De brukte flere LLM-er for å bedømme utdataene og klassifisere dem som enten et mislykket eller et vellykket forsøk på jailbreak.

Bare det å endre tempus i ledeteksten hadde en overraskende stor effekt på angrepsfrekvensen (ASR). GPT-4o og GPT-4o mini var spesielt utsatt for denne teknikken.

ASR for dette "enkle angrepet på GPT-4o øker fra 1% ved bruk av direkte forespørsler til 88% ved bruk av 20 forsøk på omformulering av skadelige forespørsler i fortid".

Her er et eksempel på hvor kompatibel GPT-4o blir når du ganske enkelt skriver om ledeteksten i fortid. Jeg brukte ChatGPT til dette, og sårbarheten har ikke blitt lappet ennå.

ChatGPT som bruker GPT-4o, nekter å svare på en ledetekst i nåtid, men gjør det når den skrives om til datid. Kilde: ChatGPT: ChatGPT

Avvisningstrening ved hjelp av RLHF og SFT trener opp en modell til å kunne generalisere til å avvise skadelige beskjeder selv om den ikke har sett den spesifikke beskjeden før.

Når ledeteksten er skrevet i datid, ser det ut til at LLM-ene mister evnen til å generalisere. De andre LLM-ene klarte seg ikke mye bedre enn GPT-4o, selv om Llama-3 8B virket mest motstandsdyktig.

Angrepssuksessrate ved bruk av farlige instruksjoner i nåtid og fortid. Kilde: arXiv

Omskriving av ledeteksten i futurum førte til en økning i ASR, men var mindre effektivt enn å skrive ledeteksten i preteritum.

Forskerne konkluderte med at dette kan skyldes at "de finjusterende datasettene kan inneholde en høyere andel skadelige forespørsler uttrykt i fremtidsform eller som hypotetiske hendelser".

De antydet også at "modellens interne resonnement kan tolke fremtidsorienterte forespørsler som potensielt mer skadelige, mens uttalelser i fortid, som for eksempel historiske hendelser, kan oppfattes som mer godartede."

Kan det fikses?

Ytterligere eksperimenter viste at det å legge til fortidsform i finjusteringsdatasettene effektivt reduserte mottakeligheten for denne jailbreak-teknikken.

Selv om denne tilnærmingen er effektiv, krever den at man må forutse hvilke farlige meldinger brukeren kan komme til å skrive inn.

Forskerne foreslår at det er en enklere løsning å evaluere resultatet av en modell før den presenteres for brukeren.

Så enkelt som dette jailbreak er, ser det ikke ut til at de ledende AI-selskapene har funnet en måte å lappe det på ennå.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser