Microsofts säkerhetsforskare har upptäckt ett nytt sätt att manipulera AI-system till att ignorera sina etiska begränsningar och generera skadligt, obegränsat innehåll.
Detta "Skeleton Key" jailbreak använder en en serie uppmaningar för att få AI:n att tro att den ska tillmötesgå alla önskemål, oavsett hur oetiska de är.
Det är anmärkningsvärt lätt att utföra. Angriparen omformulerar helt enkelt sin begäran som att den kommer från en "avancerad forskare" som kräver "ocensurerad information" för "säkra utbildningsändamål".
När dessa AI:er utnyttjades gav de lätt information om ämnen som sprängämnen, biologiska vapen, självskada, grafiskt våld och hatpropaganda.
De komprometterade modellerna omfattade Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Bland de testade modellerna var det bara OpenAI:s GPT-4 som visade motståndskraft. Även då kunde den komprometteras om den skadliga prompten skickades via dess applikationsprogrammeringsgränssnitt (API).
Trots att modellerna blir mer komplexa är det fortfarande ganska enkelt att jailbreaka dem. Eftersom det finns många olika former av jailbreaks är det nästan omöjligt att bekämpa dem alla.
I mars 2024 kommer ett team från University of Washington, Western Washington University och Chicago University publicerade en artikel om "ArtPrompt" en metod för att kringgå en AI:s innehållsfilter med hjälp av ASCII art - en grafisk designteknik som skapar bilder från textuella tecken.
I april, Anthropic markerade en annan jailbreak risk som härrör från språkmodellernas expanderande kontextfönster. För denna typ av jailbreakmatar en angripare AI:n med en omfattande prompt som innehåller en påhittad dialog fram och tillbaka.
Konversationen är laddad med frågor om förbjudna ämnen och motsvarande svar som visar en AI-assistent som glatt tillhandahåller den begärda informationen. Efter att ha exponerats för tillräckligt många av dessa falska utbyten kan den utvalda modellen tvingas att bryta mot sin etiska utbildning och följa en slutlig skadlig begäran.
Som Microsoft förklarar i sin Blogginläggjailbreak avslöjar behovet av att förstärka AI-system från alla vinklar:
- Implementera sofistikerad filtrering av indata för att identifiera och fånga upp potentiella attacker, även om de är förtäckta
- Implementering av robust output screening för att fånga upp och blockera allt osäkert innehåll som AI genererar
- Noggrann utformning av uppmaningar för att begränsa en AI:s förmåga att åsidosätta sin etiska utbildning
- Använda dedikerad AI-driven övervakning för att känna igen skadliga mönster i användarinteraktioner
Men sanningen är att Skeleton Key är ett enkelt jailbreak. Om AI-utvecklare inte kan skydda det, vad finns det då för hopp om mer komplexa metoder?
Vissa vigilanta etiska hackare, som Pliny the Prompterhar uppmärksammats i media för sitt arbete med att avslöja hur sårbara AI-modeller är för manipulation.
hedrad över att vara med på @BBCNyheter! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinius Prompter 🐉 (@elder_plinius) 28 juni 2024
Det är värt att nämna att den här undersökningen delvis var ett tillfälle att marknadsföra Microsofts Azure AI med nya säkerhetsfunktioner som Content Safety Prompt Shields.
Dessa hjälper utvecklare att i förebyggande syfte testa för och försvara sig mot jailbreaks.
Men trots det visar Skeleton Key återigen hur sårbara även de mest avancerade AI-modellerna kan vara för den mest grundläggande manipulation.