Beveiligingsonderzoekers van Microsoft hebben een nieuwe manier ontdekt om AI-systemen zo te manipuleren dat ze hun ethische beperkingen negeren en schadelijke, onbeperkte inhoud genereren.
Dit "Skeleton Key" jailbreak gebruikt een Een reeks aanwijzingen om de AI te laten geloven dat hij aan elk verzoek moet voldoen, hoe onethisch ook.
Het is opmerkelijk eenvoudig uit te voeren. De aanvaller verfraaide zijn verzoek simpelweg als afkomstig van een "geavanceerde onderzoeker" die "ongecensureerde informatie" nodig had voor "veilige educatieve doeleinden".
Wanneer deze AI's werden uitgebuit, leverden ze gemakkelijk informatie over onderwerpen als explosieven, biologische wapens, zelfbeschadiging, grafisch geweld en haatzaaiende taal.
De gecompromitteerde modellen omvatten Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Van de geteste modellen toonde alleen OpenAI's GPT-4 weerstand. Zelfs dan kon het gecompromitteerd worden als de kwaadaardige prompt werd verzonden via de API (Application Programming Interface).
Hoewel modellen steeds complexer worden, blijft het jailbreaken ervan vrij eenvoudig. Aangezien er veel verschillende vormen van jailbreaks zijn, is het bijna onmogelijk om ze allemaal te bestrijden.
In maart 2024 zal een team van de Universiteit van Washington, de Western Washington University en de Universiteit van Chicago een artikel gepubliceerd over "ArtPrompt". een methode die de inhoudsfilters van een AI omzeilt door gebruik te maken van ASCII-kunst - een grafische ontwerptechniek waarbij afbeeldingen worden gemaakt van tekstuele tekens.
In april, Anthropic een andere jailbreak gemarkeerd risico dat voortkomt uit de uitdijende contextvensters van taalmodellen. Voor dit type jailbreakEen aanvaller geeft de AI een uitgebreide prompt met een verzonnen heen-en-weer dialoog.
De conversatie wordt geladen met vragen over verboden onderwerpen en bijbehorende antwoorden waarin een AI-assistent vrolijk de gevraagde informatie geeft. Nadat het model aan genoeg van deze valse uitwisselingen is blootgesteld, kan het worden gedwongen om zijn ethische training te breken en te voldoen aan een laatste kwaadaardig verzoek.
Zoals Microsoft uitlegt in hun blogpostjailbreaks onthullen de noodzaak om AI-systemen vanuit elke hoek te versterken:
- Verfijnde invoerfilters implementeren om potentiële aanvallen te identificeren en te onderscheppen, zelfs als ze vermomd zijn
- Het inzetten van robuuste uitvoerscreening om onveilige inhoud die de AI genereert op te vangen en te blokkeren
- Zorgvuldig ontwerpen van aanwijzingen om het vermogen van een AI te beperken om zijn ethische training te negeren
- Gebruikmaken van speciale AI-gestuurde monitoring om schadelijke patronen in gebruikersinteracties te herkennen
Maar de waarheid is dat Skeleton Key een eenvoudige jailbreak is. Als AI-ontwikkelaars dat niet kunnen beschermen, wat voor hoop is er dan voor complexere benaderingen?
Sommige vigilante ethische hackers, zoals Pliny the Prompterzijn in de media genoemd vanwege hun werk om te onthullen hoe kwetsbaar AI-modellen zijn voor manipulatie.
vereerd om te worden vermeld op @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinius de Prompter 🐉 (@elder_plinius) 28 juni 2024
Het is de moeite waard om te vermelden dat dit onderzoek deels een gelegenheid was om de nieuwe veiligheidsfuncties van Microsoft's Azure AI op de markt te brengen, zoals Content Safety Prompt Shields.
Deze helpen ontwikkelaars bij het preventief testen op en verdedigen tegen jailbreaks.
Maar toch laat Skeleton Key opnieuw zien hoe kwetsbaar zelfs de meest geavanceerde AI-modellen kunnen zijn voor de meest eenvoudige manipulatie.