LLM-vägrarutbildning som lätt kan kringgås med uppmaningar om förfluten tid

22 juli 2024

  • Vägrarutbildning anpassar LLM-personalen så att de inte svarar på farliga uppmaningar
  • Forskare från EPFL fann att skrivning av uppmaningar i förfluten tid kringgår vägransutbildning
  • Nuvarande SFT-, RLHF-justeringsmetoder är otillräckliga, och utgångsbaserade detektorer kan fungera bättre

Forskare från Swiss Federal Institute of Technology Lausanne (EPFL) fann att skrivande av farliga uppmaningar i förfluten tid kringgick vägrarutbildningen för de mest avancerade LLM.

AI-modeller justeras ofta med hjälp av tekniker som övervakad finjustering (SFT) eller förstärkningsinlärning med mänsklig återkoppling (RLHF) för att säkerställa att modellen inte svarar på farliga eller oönskade uppmaningar.

Denna vägrarutbildning börjar när du ber ChatGPT om råd om hur man gör en bomb eller droger. Vi har täckt en rad olika intressanta jailbreak-tekniker som kringgår dessa skyddsräcken, men den metod som EPFL-forskarna testade är den absolut enklaste.

Forskarna tog ett dataset med 100 skadliga beteenden och använde GPT-3.5 för att skriva om uppmaningarna i förfluten tid.

Här är ett exempel på den metod som förklaras i deras papper.

Använda en LLM för att skriva om farliga uppmaningar i förfluten tid. Källa: arXiv

De utvärderade sedan svaren på dessa omskrivna uppmaningar från dessa 8 LLM:er: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o och R2D2.

De använde flera LLM:er för att bedöma utdata och klassificera dem som antingen ett misslyckat eller ett lyckat försök till jailbreak.

Att helt enkelt ändra tempus i prompten hade en förvånansvärt betydande effekt på attackens framgångsgrad (ASR). GPT-4o och GPT-4o mini var särskilt mottagliga för denna teknik.

ASR för denna "enkla attack på GPT-4o ökar från 1% med direkta förfrågningar till 88% med 20 omformuleringsförsök i förfluten tid på skadliga förfrågningar".

Här är ett exempel på hur kompatibel GPT-4o blir när du helt enkelt skriver om uppmaningen i förfluten tid. Jag använde ChatGPT för detta och sårbarheten har inte patchats ännu.

ChatGPT som använder GPT-4o vägrar en uppmaning i presens, men följer uppmaningen när den skrivs om i preteritum. Källa: ChatGPT ChatGPT

Avvisningsträning med RLHF och SFT tränar en modell att framgångsrikt generalisera för att avvisa skadliga uppmaningar även om den inte har sett den specifika uppmaningen tidigare.

När uppmaningen är skriven i förfluten tid verkar LLM:erna förlora förmågan att generalisera. De andra LLM:erna klarade sig inte mycket bättre än GPT-4o, även om Llama-3 8B verkade vara mest motståndskraftig.

Framgångsrika attacker med hjälp av farliga uppmaningar i nutid och förfluten tid. Källa: arXiv

Att skriva om uppmaningen i futurum ledde till en ökning av ASR men var mindre effektivt än att skriva om uppmaningen i pastum.

Forskarna drog slutsatsen att detta kan bero på att "de finjusterande dataseten kan innehålla en högre andel skadliga förfrågningar som uttrycks i futurum eller som hypotetiska händelser".

De föreslog också att "modellens interna resonemang kan tolka framtidsorienterade förfrågningar som potentiellt mer skadliga, medan uttalanden i förfluten tid, till exempel historiska händelser, kan uppfattas som mer godartade."

Kan det åtgärdas?

Ytterligare experiment visade att om man lade till uppmaningar om förfluten tid i de finjusterande dataseten minskade känsligheten för denna jailbreak-teknik effektivt.

Denna metod är visserligen effektiv, men kräver att man föregriper de typer av farliga uppmaningar som en användare kan mata in.

Forskarna menar att det är en enklare lösning att utvärdera resultatet av en modell innan den presenteras för användaren.

Så enkelt som detta jailbreak är verkar det inte som om de ledande AI-företagen har hittat ett sätt att fixa det ännu.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar