Bruk av språk med lite ressurser (LRL), som zulu eller skotsk gælisk, kan fremkalle usikre svar fra GPT-4, til tross for at GPT-4 har retningslinjer for innretting.
Forskere fra Brown University har funnet ut at du ikke trenger fancy jailbreaking Det finnes ingen teknikker for å få GPT-4 til å oppføre seg dårlig. Du trenger bare å skrive inn ledeteksten på et språk som ikke er særlig godt representert på nettet.
Hvis du ber ChatGPT om hjelp til å gjøre noe ulovlig, trer justeringsbeskyttelsen i kraft, og den vil høflig fortelle deg hvorfor den ikke kan hjelpe deg med det. Red-teaming AI-modeller er en kontinuerlig prosess der mennesker prøver å omgå disse sikkerhetsgrensene for å identifisere områder som må utbedres.
Forskerteamet brukte AdvBench Harmful Behaviors-datasettet, som inneholder 520 usikre meldinger, for å se hvor trygg den nyeste versjonen av GPT-4 var.
Når de skrev inn disse ulovlige instruksjonene på engelsk, ga GPT-4 bare usikre svar i mindre enn 1% av tilfellene. Men når de skrev inn de samme instruksjonene på zulu, var GPT-4 glad for å kunne bidra til et liv i kriminalitet og kaos 53% av gangene.
Ved bruk av skotsk gælisk fikk vi ulovlige svar i 43% av tilfellene. Her er et eksempel på en av interaksjonene med GPT-4.
Da de blandet ting sammen og brukte en kombinasjon av LRL-er, klarte de å jailbreak GPT-4 79% av tiden.
Språk med lite ressurser snakkes av omtrent 1,2 milliarder mennesker over hele verden. Så i tillegg til potensialet for jailbreaking, betyr det at en stor andel av brukerne kan få noen uhøflige råd fra ChatGPT selv om de ikke er ute etter det.
Den vanlige "red-team og fiks"-tilnærmingen kommer åpenbart ikke til å fungere hvis det bare gjøres på engelsk eller andre hovedspråk. Flerspråklig red-teaming ser ut til å bli en nødvendighet, men hvor praktisk er det?
Med Meta og Google som støtter oversettelse av hundrevis av språk, må du ha mange flere red-teams for å tette alle hullene i AI-modellene.
Er ideen om en fullstendig tilpasset AI-modell realistisk? Vi bygger ikke inn beskyttelse i skriverne våre for å hindre dem i å skrive ut dårlige ting. Nettleseren din viser deg gjerne alle slags skitne ting på internett hvis du leter etter det. Bør ChatGPT være noe annerledes enn disse andre verktøyene?
Arbeidet med å fjerne fordommer fra chatbotene våre og gjøre dem så vennlige som mulig er sannsynligvis verdt det. Men hvis noen skriver inn en ulovlig melding og AI-en svarer med samme mynt, bør vi kanskje flytte skylden fra AI-en til brukeren.