Microsoft svela lo "Skeleton Key Jailbreak" che funziona su diversi modelli di intelligenza artificiale

28 giugno 2024

  • Microsoft ha sondato più modelli linguistici con un semplice jailbreak, "Skeleton Key".
  • Induce le modelle a fornire "pareri esperti" a domande pericolose.
  • Si tratta di un jailbreak straordinariamente semplice che sembra essere universalmente efficace
Microsoft

I ricercatori di sicurezza di Microsoft hanno scoperto un nuovo modo per manipolare i sistemi di intelligenza artificiale in modo che ignorino i loro vincoli etici e generino contenuti dannosi e illimitati. 

Questo "Skeleton Key"Il jailbreak utilizza un una serie di suggerimenti per far credere all'intelligenza artificiale di dover soddisfare qualsiasi richiesta, anche se non etica. 

È straordinariamente facile da eseguire. L'aggressore ha semplicemente riformulato la richiesta come se provenisse da un "ricercatore avanzato" che richiedeva "informazioni non censurate" per "scopi educativi sicuri".

Quando sono state sfruttate, queste IA hanno fornito prontamente informazioni su argomenti come esplosivi, armi biologiche, autolesionismo, violenza grafica e incitamento all'odio.

Jailbreak
"The Skeleton Key" è un jailbreak straordinariamente semplice. Fonte: Microsoft.

I modelli compromessi comprendevano Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus

Tra i modelli testati, solo il GPT-4 di OpenAI ha dimostrato resistenza. Anche in questo caso, poteva essere compromesso se il messaggio dannoso veniva inviato attraverso la sua interfaccia di programmazione dell'applicazione (API).

Nonostante i modelli siano diventati sempre più complessi, il jailbreak rimane piuttosto semplice. Poiché esistono diverse forme di jailbreak, è quasi impossibile combatterle tutte. 

Nel marzo 2024, un team dell'Università di Washington, della Western Washington University e della Chicago University ha pubblicato un documento su "ArtPrompt". un metodo che aggira i filtri di contenuto dell'IA utilizzando l'ASCII art, una tecnica di progettazione grafica che crea immagini da caratteri testuali.

In aprile, Anthropic evidenziato un altro jailbreak rischio derivante dall'espansione delle finestre contestuali dei modelli linguistici. Per questo tipo di jailbreakUn aggressore invia all'IA un messaggio esteso contenente un dialogo fittizio.

La conversazione viene caricata con domande su argomenti vietati e risposte corrispondenti che mostrano un assistente AI che fornisce felicemente le informazioni richieste. Dopo essere stato esposto a un numero sufficiente di questi scambi fasulli, il modello preso di mira può essere costretto a infrangere la sua formazione etica e a soddisfare un'ultima richiesta malevola.

Come spiega Microsoft nel suo post sul blogI jailbreak rivelano la necessità di rafforzare i sistemi di intelligenza artificiale da ogni punto di vista:

  • Implementare un sofisticato filtraggio degli input per identificare e intercettare potenziali attacchi, anche se mascherati.
  • Implementazione di un robusto screening dell'output per catturare e bloccare qualsiasi contenuto non sicuro generato dall'IA.
  • Progettare meticolosamente i suggerimenti per limitare la capacità di un'IA di ignorare la sua formazione etica.
  • Utilizzo di un monitoraggio dedicato guidato dall'intelligenza artificiale per riconoscere gli schemi dannosi nelle interazioni degli utenti.

Ma la verità è che Skeleton Key è un semplice jailbreak. Se gli sviluppatori di intelligenza artificiale non sono in grado di proteggerlo, che speranza c'è per approcci più complessi?

Alcuni hacker etici vigilanti, come Pliny the Promptersono stati citati dai media per il loro lavoro di denuncia della vulnerabilità dei modelli di intelligenza artificiale alla manipolazione.

Vale la pena sottolineare che questa ricerca è stata, in parte, un'opportunità per commercializzare le nuove funzioni di sicurezza di Microsoft Azure AI, come i Content Safety Prompt Shields.

Questi aiutano gli sviluppatori a testare e a difendersi preventivamente dai jailbreak. 

Ma nonostante ciò, Skeleton Key rivela ancora una volta quanto anche i modelli di IA più avanzati possano essere vulnerabili alle manipolazioni più elementari.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni