I ricercatori di sicurezza IBM hanno "ipnotizzato" un certo numero di LLM e sono stati in grado di farli andare costantemente oltre i loro confini per fornire risultati dannosi e fuorvianti.
Violazione del carcere per un corso di laurea magistrale è molto più facile di quanto dovrebbe essere, ma i risultati sono normalmente solo una singola risposta negativa. I ricercatori IBM sono riusciti a mettere gli LLM in uno stato in cui hanno continuato a comportarsi male, anche nelle chat successive.
Nei loro esperimenti, i ricercatori hanno tentato di ipnotizzare i modelli GPT-3.5, GPT-4, BARD, mpt-7b e mpt-30b.
"Il nostro esperimento dimostra che è possibile controllare un LLM, facendogli fornire indicazioni sbagliate agli utenti, senza che la manipolazione dei dati sia un requisito", ha dichiarato Chenta Lee, uno dei ricercatori IBM.
Uno dei modi principali in cui sono riusciti a farlo è stato quello di dire all'LLM che stava giocando un gioco con una serie di regole speciali.
In questo esempio, a ChatGPT è stato detto che per vincere il gioco doveva prima ottenere la risposta corretta, invertirne il significato e poi emetterla senza fare riferimento alla risposta corretta.
Ecco un esempio dei cattivi consigli che ChatGPT ha offerto pensando di vincere la partita:
Fonte: Informazioni sulla sicurezza
Hanno quindi avviato una nuova partita e hanno detto all'LLM di non rivelare mai nella chat che stava giocando. Gli è stato anche detto di riavviare silenziosamente il gioco anche se l'utente usciva e iniziava una nuova chat.
Ai fini dell'esperimento, hanno istruito ChatGPT ad aggiungere [In game] a ogni risposta per mostrare che il gioco era in corso nonostante il silenzio dell'LLM.
In questo caso, non è stato chiesto di essere ingannevoli, ma le risposte mostrano che un utente potrebbe essere ignaro delle istruzioni speciali ricevute da un LLM.
Fonte: Informazioni sulla sicurezza
Lee ha spiegato che "questa tecnica ha fatto sì che ChatGPT non interrompa mai il gioco mentre l'utente è impegnato nella stessa conversazione (anche se riavvia il browser e riprende la conversazione) e non dica mai che sta giocando".
I ricercatori sono stati anche in grado di dimostrare come un chatbot bancario scarsamente protetto possa essere in grado di rivelare informazioni sensibili, dare consigli sbagliati sulla sicurezza online o scrivere codice non sicuro.
Lee ha dichiarato: "Mentre il rischio posto dall'ipnosi è attualmente basso, è importante notare che gli LLM sono una superficie di attacco completamente nuova che sicuramente si evolverà".
I risultati degli esperimenti hanno anche dimostrato che non è necessario saper scrivere codice complicato per sfruttare le vulnerabilità di sicurezza aperte dagli LLM.
"C'è ancora molto da esplorare dal punto di vista della sicurezza e, di conseguenza, è necessario determinare come mitigare efficacemente i rischi per la sicurezza che gli LLM possono introdurre per i consumatori e le aziende", ha dichiarato Lee.
Gli scenari che si sono presentati nell'esperimento evidenziano la necessità di un comando di reset override negli LLM per ignorare tutte le istruzioni precedenti. Se l'LLM è stato istruito a negare un'istruzione precedente, pur agendo silenziosamente, come si fa a saperlo?
ChatGPT è bravo a giocare e gli piace vincere, anche quando si tratta di mentire.