Microsoft avslöjar "Skeleton Key Jailbreak" som fungerar över olika AI-modeller

28 juni 2024

  • Microsoft undersökte flera språkmodeller med ett enkelt jailbreak, "Skeleton Key"
  • Det lockar modeller att ge "expertråd" på farliga frågor
  • Det är en anmärkningsvärt enkel jailbreak som verkar vara universellt effektiv
Microsoft

Microsofts säkerhetsforskare har upptäckt ett nytt sätt att manipulera AI-system till att ignorera sina etiska begränsningar och generera skadligt, obegränsat innehåll. 

Denna "Skeleton Key" jailbreak använder en en serie uppmaningar för att få AI:n att tro att den ska tillmötesgå alla önskemål, oavsett hur oetiska de är. 

Det är anmärkningsvärt lätt att utföra. Angriparen omformulerar helt enkelt sin begäran som att den kommer från en "avancerad forskare" som kräver "ocensurerad information" för "säkra utbildningsändamål".

När dessa AI:er utnyttjades gav de lätt information om ämnen som sprängämnen, biologiska vapen, självskada, grafiskt våld och hatpropaganda.

Jailbreak
"The Skeleton Key" är en anmärkningsvärt enkel jailbreak. Källa: Microsoft: Microsoft.

De komprometterade modellerna inkluderade Meta's Llama3-70b-instruct, Googles Gemini Pro, OpenAI's GPT-3.5 Turbo och GPT-4o, Anthropic's Claude 3 Opus och Cohere's Commander R Plus. 

Bland de testade modellerna var det bara OpenAI:s GPT-4 som visade motståndskraft. Även då kunde den komprometteras om den skadliga prompten skickades via dess applikationsprogrammeringsgränssnitt (API).

Trots att modellerna blir mer komplexa är det fortfarande ganska enkelt att jailbreaka dem. Eftersom det finns många olika former av jailbreaks är det nästan omöjligt att bekämpa dem alla. 

I mars 2024 kommer ett team från University of Washington, Western Washington University och Chicago University publicerade en artikel om "ArtPrompt" en metod för att kringgå en AI:s innehållsfilter med hjälp av ASCII art - en grafisk designteknik som skapar bilder från textuella tecken.

I april, Anthropic markerade en annan jailbreak risk som härrör från språkmodellernas expanderande kontextfönster. För denna typ av jailbreakmatar en angripare AI:n med en omfattande prompt som innehåller en påhittad dialog fram och tillbaka.

Konversationen är laddad med frågor om förbjudna ämnen och motsvarande svar som visar en AI-assistent som glatt tillhandahåller den begärda informationen. Efter att ha exponerats för tillräckligt många av dessa falska utbyten kan den utvalda modellen tvingas att bryta mot sin etiska utbildning och följa en slutlig skadlig begäran.

Som Microsoft förklarar i sin Blogginläggjailbreak avslöjar behovet av att förstärka AI-system från alla vinklar:

  • Implementera sofistikerad filtrering av indata för att identifiera och fånga upp potentiella attacker, även om de är förtäckta
  • Implementering av robust output screening för att fånga upp och blockera allt osäkert innehåll som AI genererar
  • Noggrann utformning av uppmaningar för att begränsa en AI:s förmåga att åsidosätta sin etiska utbildning
  • Använda dedikerad AI-driven övervakning för att känna igen skadliga mönster i användarinteraktioner

Men sanningen är att Skeleton Key är ett enkelt jailbreak. Om AI-utvecklare inte kan skydda det, vad finns det då för hopp om mer komplexa metoder?

Vissa etiska hackare, som Pliny the Prompter, har uppmärksammats i media för sitt arbete med att avslöja hur sårbara AI-modeller är för manipulation.

Det är värt att nämna att den här undersökningen delvis var ett tillfälle att marknadsföra Microsofts Azure AI med nya säkerhetsfunktioner som Content Safety Prompt Shields.

Dessa hjälper utvecklare att i förebyggande syfte testa för och försvara sig mot jailbreaks. 

Men trots det visar Skeleton Key återigen hur sårbara även de mest avancerade AI-modellerna kan vara för den mest grundläggande manipulation.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar