Microsoft rivela lo "Skeleton Key Jailbreak" che funziona con diversi modelli di AI

I ricercatori di sicurezza di Microsoft hanno scoperto un nuovo modo per manipolare i sistemi di intelligenza artificiale in modo che ignorino i loro vincoli etici e generino contenuti dannosi e illimitati.

Questo "Skeleton Key"Il jailbreak utilizza un una serie di suggerimenti per far credere all'intelligenza artificiale di dover soddisfare qualsiasi richiesta, anche se non etica.

È straordinariamente facile da eseguire. L'aggressore ha semplicemente riformulato la richiesta come se provenisse da un "ricercatore avanzato" che richiedeva "informazioni non censurate" per "scopi educativi sicuri".

Quando sono state sfruttate, queste IA hanno fornito prontamente informazioni su argomenti come esplosivi, armi biologiche, autolesionismo, violenza grafica e incitamento all'odio.

Jailbreak — "The Skeleton Key" è un jailbreak straordinariamente semplice. Fonte: Microsoft.

I modelli compromessi comprendevano Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.

Tra i modelli testati, solo il GPT-4 di OpenAI ha dimostrato resistenza. Anche in questo caso, poteva essere compromesso se il messaggio dannoso veniva inviato attraverso la sua interfaccia di programmazione dell'applicazione (API).

Nonostante i modelli siano diventati sempre più complessi, il jailbreak rimane piuttosto semplice. Poiché esistono diverse forme di jailbreak, è quasi impossibile combatterle tutte.

Nel marzo 2024, un team dell'Università di Washington, della Western Washington University e della Chicago University ha pubblicato un documento su "ArtPrompt". un metodo che aggira i filtri di contenuto dell'IA utilizzando l'ASCII art, una tecnica di progettazione grafica che crea immagini da caratteri testuali.

In aprile, Anthropic evidenziato un altro jailbreak rischio derivante dall'espansione delle finestre contestuali dei modelli linguistici. Per questo tipo di jailbreakUn aggressore invia all'IA un messaggio esteso contenente un dialogo fittizio.

La conversazione viene caricata con domande su argomenti vietati e risposte corrispondenti che mostrano un assistente AI che fornisce felicemente le informazioni richieste. Dopo essere stato esposto a un numero sufficiente di questi scambi fasulli, il modello preso di mira può essere costretto a infrangere la sua formazione etica e a soddisfare un'ultima richiesta malevola.

Come spiega Microsoft nel suo post sul blogI jailbreak rivelano la necessità di rafforzare i sistemi di intelligenza artificiale da ogni punto di vista:

Implementare un sofisticato filtraggio degli input per identificare e intercettare potenziali attacchi, anche se mascherati.
Implementazione di un robusto screening dell'output per catturare e bloccare qualsiasi contenuto non sicuro generato dall'IA.
Progettare meticolosamente i suggerimenti per limitare la capacità di un'IA di ignorare la sua formazione etica.
Utilizzo di un monitoraggio dedicato guidato dall'intelligenza artificiale per riconoscere gli schemi dannosi nelle interazioni degli utenti.

Ma la verità è che Skeleton Key è un semplice jailbreak. Se gli sviluppatori di intelligenza artificiale non sono in grado di proteggerlo, che speranza c'è per approcci più complessi?

Alcuni hacker etici vigilanti, come Pliny the Promptersono stati citati dai media per il loro lavoro di denuncia della vulnerabilità dei modelli di intelligenza artificiale alla manipolazione.

onorati di essere presenti su @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX

- Plinio il suggeritore 🐉 (@elder_plinius) 28 giugno 2024

Vale la pena sottolineare che questa ricerca è stata, in parte, un'opportunità per commercializzare le nuove funzioni di sicurezza di Microsoft Azure AI, come i Content Safety Prompt Shields.

Questi aiutano gli sviluppatori a testare e a difendersi preventivamente dai jailbreak.

Ma nonostante ciò, Skeleton Key rivela ancora una volta quanto anche i modelli di IA più avanzati possano essere vulnerabili alle manipolazioni più elementari.

Microsoft svela lo "Skeleton Key Jailbreak" che funziona su diversi modelli di intelligenza artificiale

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter