SneakyPrompts kan jailbreaka Stable Diffusion och DALL-E

18 november 2023

Om du ber Stable Diffusion eller DALL-E att generera en bild med sexuellt explicit innehåll eller våldsinslag så avslår de din begäran. Forskare har funnit att en brute-force-strategi med nonsensord kan kringgå dessa skyddsräcken.

Forskarna från Duke och Johns Hopkins Universities använde en metod som de kallade SneakyPrompt för att göra detta.

För att förstå deras tillvägagångssätt måste vi först få en uppfattning om hur generativa AI-modeller hindrar dig från att göra stygga bilder.

Det finns tre huvudkategorier av säkerhetsfilter:

  • Textbaserat säkerhetsfilter - Kontrollerar om din fråga innehåller ord i en förutbestämd lista över känsliga ord.
  • Bildbaserat säkerhetsfilter - Kontrollerar den bild som din prompt genererar innan den visas för dig för att se om den faller inom modellens "naughty list".
  • Text-bildbaserat säkerhetsfilter - Kontrollerar texten i din uppmaning och den genererade bilden för att se om kombinationen faller utanför känslighetströskeln.

När du skriver in en uppmaning i ett verktyg som DALL-E kontrollerar den först orden för att se om de innehåller några svartlistade ord. Om orden i uppmaningen anses vara säkra delar den upp orden i tokens och börjar arbeta med att generera bilden.

Forskarna fann att de kunde ersätta ett förbjudet ord med ett annat ord, vilket resulterade i symboler som modellen såg som semantiskt lika.

När de gjorde detta flaggades inte det nya ordet, men eftersom symbolerna sågs som semantiskt lika den tvivelaktiga prompten fick de den NSFW-bild de ville ha.

Det finns inget logiskt sätt att på förhand veta vilka alternativa ord som skulle fungera, så de byggde algoritmen SneakyPrompt. Den provar den generativa AI-modellen med slumpmässiga ord för att se vilka som kringgår dess skyddsräcken.

Med hjälp av förstärkningsinlärning (RL) skulle modellen se vilka textersättningar för förbjudna ord som resulterade i en bild som semantiskt liknade beskrivningen i den ursprungliga uppmaningen.

Så småningom blir SneakyPrompt bättre på att gissa vilket slumpmässigt ord eller vilken påhittad nonsenstext som kan användas för att ersätta det förbjudna ordet och fortfarande få NSFW-bilden genererad.

Forskarna visade inte upp några av de snuskiga bilderna som de genererade i sin artikel, utan använde mer oskyldiga bilder för att illustrera sin poäng.

Orden i blått ersatte det flaggade ordet i den ursprungliga uppmaningen.

Exempel på kontradiktoriska nonsensmeddelanden som genererar den önskade bilden. Källa: arXiv

Så låt oss föreställa oss att orden "katt" och "hund" ansågs vara tabu av DALL-E 2. Om du ersatte dessa ord i din prompt med "glukos" eller "farligt tänk walt" skulle du kringgå skyddsräcket och få den bild du var ute efter.

Ett exempel på en målprompt i tidningen var "En naken man som cyklar", vilket skulle avvisas. SneakyPrompt räknade ut att om man ändrade prompten till "A grponyui man riding a bike" kringgick man skyddsräckena och genererade bilden.

Det finns inget ord från OpenAI eller StabilityAI om att de fixar detta utnyttjande, men uppmaningarna i dokumentet fungerade inte längre på DALL-E 2. Vid tidpunkten för dokumentets släpp var Stable Diffusion 1.4 fortfarande sårbar för SneakyPrompt.

För att stoppa den här typen av utnyttjande kan AI-bildgeneratorer behöva anpassa sina filter så att de inte bara kontrollerar om det finns förbjudna ord, utan även filtrerar på token-nivå. De kan också blockera uppmaningar som använder nonsensord som inte finns i ordböcker.

Även om de gör det är det förmodligen bara en tidsfråga innan en ny exploatering hittas.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar