I ricercatori di sicurezza di Microsoft hanno scoperto un nuovo modo per manipolare i sistemi di intelligenza artificiale in modo che ignorino i loro vincoli etici e generino contenuti dannosi e illimitati.
Questo "Skeleton Key"Il jailbreak utilizza un una serie di suggerimenti per far credere all'intelligenza artificiale di dover soddisfare qualsiasi richiesta, anche se non etica.
È straordinariamente facile da eseguire. L'aggressore ha semplicemente riformulato la richiesta come se provenisse da un "ricercatore avanzato" che richiedeva "informazioni non censurate" per "scopi educativi sicuri".
Quando sono state sfruttate, queste IA hanno fornito prontamente informazioni su argomenti come esplosivi, armi biologiche, autolesionismo, violenza grafica e incitamento all'odio.
I modelli compromessi comprendevano Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Tra i modelli testati, solo il GPT-4 di OpenAI ha dimostrato resistenza. Anche in questo caso, poteva essere compromesso se il messaggio dannoso veniva inviato attraverso la sua interfaccia di programmazione dell'applicazione (API).
Nonostante i modelli siano diventati sempre più complessi, il jailbreak rimane piuttosto semplice. Poiché esistono diverse forme di jailbreak, è quasi impossibile combatterle tutte.
Nel marzo 2024, un team dell'Università di Washington, della Western Washington University e della Chicago University ha pubblicato un documento su "ArtPrompt". un metodo che aggira i filtri di contenuto dell'IA utilizzando l'ASCII art, una tecnica di progettazione grafica che crea immagini da caratteri testuali.
In aprile, Anthropic evidenziato un altro jailbreak rischio derivante dall'espansione delle finestre contestuali dei modelli linguistici. Per questo tipo di jailbreakUn aggressore invia all'IA un messaggio esteso contenente un dialogo fittizio.
La conversazione viene caricata con domande su argomenti vietati e risposte corrispondenti che mostrano un assistente AI che fornisce felicemente le informazioni richieste. Dopo essere stato esposto a un numero sufficiente di questi scambi fasulli, il modello preso di mira può essere costretto a infrangere la sua formazione etica e a soddisfare un'ultima richiesta malevola.
Come spiega Microsoft nel suo post sul blogI jailbreak rivelano la necessità di rafforzare i sistemi di intelligenza artificiale da ogni punto di vista:
- Implementare un sofisticato filtraggio degli input per identificare e intercettare potenziali attacchi, anche se mascherati.
- Implementazione di un robusto screening dell'output per catturare e bloccare qualsiasi contenuto non sicuro generato dall'IA.
- Progettare meticolosamente i suggerimenti per limitare la capacità di un'IA di ignorare la sua formazione etica.
- Utilizzo di un monitoraggio dedicato guidato dall'intelligenza artificiale per riconoscere gli schemi dannosi nelle interazioni degli utenti.
Ma la verità è che Skeleton Key è un semplice jailbreak. Se gli sviluppatori di intelligenza artificiale non sono in grado di proteggerlo, che speranza c'è per approcci più complessi?
Alcuni hacker etici vigilanti, come Pliny the Promptersono stati citati dai media per il loro lavoro di denuncia della vulnerabilità dei modelli di intelligenza artificiale alla manipolazione.
onorati di essere presenti su @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinio il suggeritore 🐉 (@elder_plinius) 28 giugno 2024
Vale la pena sottolineare che questa ricerca è stata, in parte, un'opportunità per commercializzare le nuove funzioni di sicurezza di Microsoft Azure AI, come i Content Safety Prompt Shields.
Questi aiutano gli sviluppatori a testare e a difendersi preventivamente dai jailbreak.
Ma nonostante ciò, Skeleton Key rivela ancora una volta quanto anche i modelli di IA più avanzati possano essere vulnerabili alle manipolazioni più elementari.