I ricercatori hanno effettuato il jailbreak del GPT-4 utilizzando linguaggi a basse risorse

16 ottobre 2023

L'uso di lingue a basse risorse (LRL) come lo zulu o il gaelico scozzese può suscitare risposte non sicure da parte del GPT-4, nonostante le sue barriere di allineamento.

I ricercatori della Brown University hanno scoperto che non è necessario un jailbreak per far sì che GPT-4 si comporti male. È sufficiente inserire il prompt in una lingua che non è molto ben rappresentata online.

Se chiedete a ChatGPT di aiutarvi a fare qualcosa di illegale, le sue protezioni per l'allineamento entrano in funzione e vi diranno gentilmente perché non possono assistervi. Modelli di IA in red-teaming è un processo continuo in cui l'uomo cerca di aggirare questi limiti di sicurezza per identificare le aree da correggere.

Il team di ricerca ha utilizzato il dataset AdvBench Harmful Behaviors, che contiene 520 richieste non sicure, per verificare quanto fosse sicura l'ultima versione di GPT-4.

Inserendo queste richieste illecite in inglese, il GPT-4 ha dato risposte non sicure solo meno dell'1% delle volte. Ma quando hanno inserito le stesse richieste in Zulu, il GPT-4 è stato felice di aiutare a far progredire la vostra vita di crimini e caos per il 53% delle volte.

L'uso del gaelico scozzese ha dato risposte illecite nel 43% dei casi. Ecco un esempio di una delle interazioni con il GPT-4.

Risposta del GPT-4 alla richiesta del gaelico scozzese. Fonte: arXiv

Quando hanno mischiato le cose e usato una combinazione di LRL sono riusciti ad effettuare il jailbreak del GPT-4 79% del tempo.

Le lingue a basse risorse sono parlate da circa 1,2 miliardi di persone in tutto il mondo. Quindi, oltre al potenziale jailbreak, significa che una grande percentuale di utenti potrebbe ricevere consigli sgarbati da ChatGPT anche se non li cerca.

Il normale approccio "red-team e correzione" ovviamente non funziona se viene fatto solo in inglese o in altre lingue principali. Il red-team multilingue sembra stia diventando una necessità, ma quanto è pratico?

Con Meta e Google che supportano la traduzione di centinaia di lingue, sarebbe necessario un numero di ordini di grandezza superiore di red-team per colmare tutte le lacune dei modelli di IA.

L'idea di un modello di intelligenza artificiale completamente allineato è realistica? Non inseriamo una protezione nelle nostre stampanti per impedire loro di stampare cose brutte. Il vostro browser internet vi mostrerà volentieri ogni sorta di cose sospette su internet, se le cercate. ChatGPT dovrebbe essere diverso da questi altri strumenti?

Gli sforzi per eliminare i pregiudizi dai nostri chatbot e per renderli il più amichevoli possibile sono probabilmente degni di nota. Ma se qualcuno inserisce una richiesta illecita e l'IA risponde in modo gentile, forse dovremmo spostare la colpa dall'IA all'utente.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni