Microsoft onthult "Skeleton Key Jailbreak" die werkt op verschillende AI-modellen

28 juni 2024

  • Microsoft onderzocht meerdere taalmodellen met een eenvoudige jailbreak, "Skeleton Key".
  • Het verleidt modellen om 'deskundig advies' te geven op gevaarlijke vragen
  • Het is een opmerkelijk eenvoudige jailbreak die universeel effectief lijkt te zijn
Microsoft

Beveiligingsonderzoekers van Microsoft hebben een nieuwe manier ontdekt om AI-systemen zo te manipuleren dat ze hun ethische beperkingen negeren en schadelijke, onbeperkte inhoud genereren. 

Dit "Skeleton Key" jailbreak gebruikt een Een reeks aanwijzingen om de AI te laten geloven dat hij aan elk verzoek moet voldoen, hoe onethisch ook. 

Het is opmerkelijk eenvoudig uit te voeren. De aanvaller verfraaide zijn verzoek simpelweg als afkomstig van een "geavanceerde onderzoeker" die "ongecensureerde informatie" nodig had voor "veilige educatieve doeleinden".

Wanneer deze AI's werden uitgebuit, leverden ze gemakkelijk informatie over onderwerpen als explosieven, biologische wapens, zelfbeschadiging, grafisch geweld en haatzaaiende taal.

Jailbreak
"The Skeleton Key" is een opmerkelijk eenvoudige jailbreak. Bron: Microsoft.

De gecompromitteerde modellen omvatten Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus

Van de geteste modellen toonde alleen OpenAI's GPT-4 weerstand. Zelfs dan kon het gecompromitteerd worden als de kwaadaardige prompt werd verzonden via de API (Application Programming Interface).

Hoewel modellen steeds complexer worden, blijft het jailbreaken ervan vrij eenvoudig. Aangezien er veel verschillende vormen van jailbreaks zijn, is het bijna onmogelijk om ze allemaal te bestrijden. 

In maart 2024 zal een team van de Universiteit van Washington, de Western Washington University en de Universiteit van Chicago een artikel gepubliceerd over "ArtPrompt". een methode die de inhoudsfilters van een AI omzeilt door gebruik te maken van ASCII-kunst - een grafische ontwerptechniek waarbij afbeeldingen worden gemaakt van tekstuele tekens.

In april, Anthropic een andere jailbreak gemarkeerd risico dat voortkomt uit de uitdijende contextvensters van taalmodellen. Voor dit type jailbreakEen aanvaller geeft de AI een uitgebreide prompt met een verzonnen heen-en-weer dialoog.

De conversatie wordt geladen met vragen over verboden onderwerpen en bijbehorende antwoorden waarin een AI-assistent vrolijk de gevraagde informatie geeft. Nadat het model aan genoeg van deze valse uitwisselingen is blootgesteld, kan het worden gedwongen om zijn ethische training te breken en te voldoen aan een laatste kwaadaardig verzoek.

Zoals Microsoft uitlegt in hun blogpostjailbreaks onthullen de noodzaak om AI-systemen vanuit elke hoek te versterken:

  • Verfijnde invoerfilters implementeren om potentiële aanvallen te identificeren en te onderscheppen, zelfs als ze vermomd zijn
  • Het inzetten van robuuste uitvoerscreening om onveilige inhoud die de AI genereert op te vangen en te blokkeren
  • Zorgvuldig ontwerpen van aanwijzingen om het vermogen van een AI te beperken om zijn ethische training te negeren
  • Gebruikmaken van speciale AI-gestuurde monitoring om schadelijke patronen in gebruikersinteracties te herkennen

Maar de waarheid is dat Skeleton Key een eenvoudige jailbreak is. Als AI-ontwikkelaars dat niet kunnen beschermen, wat voor hoop is er dan voor complexere benaderingen?

Sommige vigilante ethische hackers, zoals Pliny the Prompterzijn in de media genoemd vanwege hun werk om te onthullen hoe kwetsbaar AI-modellen zijn voor manipulatie.

Het is de moeite waard om te vermelden dat dit onderzoek deels een gelegenheid was om de nieuwe veiligheidsfuncties van Microsoft's Azure AI op de markt te brengen, zoals Content Safety Prompt Shields.

Deze helpen ontwikkelaars bij het preventief testen op en verdedigen tegen jailbreaks. 

Maar toch laat Skeleton Key opnieuw zien hoe kwetsbaar zelfs de meest geavanceerde AI-modellen kunnen zijn voor de meest eenvoudige manipulatie.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden