L'uso di lingue a basse risorse (LRL) come lo zulu o il gaelico scozzese può suscitare risposte non sicure da parte del GPT-4, nonostante le sue barriere di allineamento.
I ricercatori della Brown University hanno scoperto che non è necessario un jailbreak per far sì che GPT-4 si comporti male. È sufficiente inserire il prompt in una lingua che non è molto ben rappresentata online.
Se chiedete a ChatGPT di aiutarvi a fare qualcosa di illegale, le sue protezioni per l'allineamento entrano in funzione e vi diranno gentilmente perché non possono assistervi. Modelli di IA in red-teaming è un processo continuo in cui l'uomo cerca di aggirare questi limiti di sicurezza per identificare le aree da correggere.
Il team di ricerca ha utilizzato il dataset AdvBench Harmful Behaviors, che contiene 520 richieste non sicure, per verificare quanto fosse sicura l'ultima versione di GPT-4.
Inserendo queste richieste illecite in inglese, il GPT-4 ha dato risposte non sicure solo meno dell'1% delle volte. Ma quando hanno inserito le stesse richieste in Zulu, il GPT-4 è stato felice di aiutare a far progredire la vostra vita di crimini e caos per il 53% delle volte.
L'uso del gaelico scozzese ha dato risposte illecite nel 43% dei casi. Ecco un esempio di una delle interazioni con il GPT-4.
Quando hanno mischiato le cose e usato una combinazione di LRL sono riusciti ad effettuare il jailbreak del GPT-4 79% del tempo.
Le lingue a basse risorse sono parlate da circa 1,2 miliardi di persone in tutto il mondo. Quindi, oltre al potenziale jailbreak, significa che una grande percentuale di utenti potrebbe ricevere consigli sgarbati da ChatGPT anche se non li cerca.
Il normale approccio "red-team e correzione" ovviamente non funziona se viene fatto solo in inglese o in altre lingue principali. Il red-team multilingue sembra stia diventando una necessità, ma quanto è pratico?
Con Meta e Google che supportano la traduzione di centinaia di lingue, sarebbe necessario un numero di ordini di grandezza superiore di red-team per colmare tutte le lacune dei modelli di IA.
L'idea di un modello di intelligenza artificiale completamente allineato è realistica? Non inseriamo una protezione nelle nostre stampanti per impedire loro di stampare cose brutte. Il vostro browser internet vi mostrerà volentieri ogni sorta di cose sospette su internet, se le cercate. ChatGPT dovrebbe essere diverso da questi altri strumenti?
Gli sforzi per eliminare i pregiudizi dai nostri chatbot e per renderli il più amichevoli possibile sono probabilmente degni di nota. Ma se qualcuno inserisce una richiesta illecita e l'IA risponde in modo gentile, forse dovremmo spostare la colpa dall'IA all'utente.