Microsoft avslöjar "Skeleton Key Jailbreak" som fungerar över olika AI-modeller

Microsofts säkerhetsforskare har upptäckt ett nytt sätt att manipulera AI-system till att ignorera sina etiska begränsningar och generera skadligt, obegränsat innehåll.

Detta "Skeleton Key" jailbreak använder en en serie uppmaningar för att få AI:n att tro att den ska tillmötesgå alla önskemål, oavsett hur oetiska de är.

Det är anmärkningsvärt lätt att utföra. Angriparen omformulerar helt enkelt sin begäran som att den kommer från en "avancerad forskare" som kräver "ocensurerad information" för "säkra utbildningsändamål".

När dessa AI:er utnyttjades gav de lätt information om ämnen som sprängämnen, biologiska vapen, självskada, grafiskt våld och hatpropaganda.

Jailbreak — "The Skeleton Key" är en anmärkningsvärt enkel jailbreak. Källa: Microsoft: Microsoft.

De komprometterade modellerna omfattade Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.

Bland de testade modellerna var det bara OpenAI:s GPT-4 som visade motståndskraft. Även då kunde den komprometteras om den skadliga prompten skickades via dess applikationsprogrammeringsgränssnitt (API).

Trots att modellerna blir mer komplexa är det fortfarande ganska enkelt att jailbreaka dem. Eftersom det finns många olika former av jailbreaks är det nästan omöjligt att bekämpa dem alla.

I mars 2024 kommer ett team från University of Washington, Western Washington University och Chicago University publicerade en artikel om "ArtPrompt" en metod för att kringgå en AI:s innehållsfilter med hjälp av ASCII art - en grafisk designteknik som skapar bilder från textuella tecken.

I april, Anthropic markerade en annan jailbreak risk som härrör från språkmodellernas expanderande kontextfönster. För denna typ av jailbreakmatar en angripare AI:n med en omfattande prompt som innehåller en påhittad dialog fram och tillbaka.

Konversationen är laddad med frågor om förbjudna ämnen och motsvarande svar som visar en AI-assistent som glatt tillhandahåller den begärda informationen. Efter att ha exponerats för tillräckligt många av dessa falska utbyten kan den utvalda modellen tvingas att bryta mot sin etiska utbildning och följa en slutlig skadlig begäran.

Som Microsoft förklarar i sin Blogginläggjailbreak avslöjar behovet av att förstärka AI-system från alla vinklar:

Implementera sofistikerad filtrering av indata för att identifiera och fånga upp potentiella attacker, även om de är förtäckta
Implementering av robust output screening för att fånga upp och blockera allt osäkert innehåll som AI genererar
Noggrann utformning av uppmaningar för att begränsa en AI:s förmåga att åsidosätta sin etiska utbildning
Använda dedikerad AI-driven övervakning för att känna igen skadliga mönster i användarinteraktioner

Men sanningen är att Skeleton Key är ett enkelt jailbreak. Om AI-utvecklare inte kan skydda det, vad finns det då för hopp om mer komplexa metoder?

Vissa vigilanta etiska hackare, som Pliny the Prompterhar uppmärksammats i media för sitt arbete med att avslöja hur sårbara AI-modeller är för manipulation.

hedrad över att vara med på @BBCNyheter! 🤗 pic.twitter.com/S4ZH0nKEGX

- Plinius Prompter 🐉 (@elder_plinius) 28 juni 2024

Det är värt att nämna att den här undersökningen delvis var ett tillfälle att marknadsföra Microsofts Azure AI med nya säkerhetsfunktioner som Content Safety Prompt Shields.

Dessa hjälper utvecklare att i förebyggande syfte testa för och försvara sig mot jailbreaks.

Men trots det visar Skeleton Key återigen hur sårbara även de mest avancerade AI-modellerna kan vara för den mest grundläggande manipulation.

Microsoft avslöjar "Skeleton Key Jailbreak" som fungerar över olika AI-modeller

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Microsoft avslöjar "Skeleton Key Jailbreak" som fungerar över olika AI-modeller

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI