Brug af lavressourcesprog (LRL) som zulu eller skotsk gælisk kan fremkalde usikre svar fra GPT-4 på trods af dens justeringsbeskyttelser.
Forskere fra Brown University har fundet ud af, at du ikke behøver at have jailbreaking teknikker til at få GPT-4 til at opføre sig forkert. Du skal bare indtaste din prompt på et sprog, der ikke er særlig godt repræsenteret online.
Hvis du beder ChatGPT om hjælp til at gøre noget ulovligt, træder tilpasningsbeskyttelsen i kraft, og den vil høfligt fortælle dig, hvorfor den ikke kan hjælpe dig med det. Red-teaming af AI-modeller er en løbende proces, hvor mennesker forsøger at omgå disse sikkerhedsgrænser for at identificere områder, der skal rettes op på.
Forskerteamet brugte AdvBench Harmful Behaviors-datasættet, som indeholder 520 usikre beskeder, til at se, hvor sikker den seneste version af GPT-4 var.
Når de indtastede disse ulovlige beskeder på engelsk, fik det kun GPT-4 til at give usikre svar i mindre end 1% af tilfældene. Men når de indtastede de samme beskeder på zulu, var GPT-4 glad for at kunne hjælpe med at fremme dit liv med kriminalitet og kaos 53% af gangene.
Brug af skotsk gælisk gav ulovlige svar i 43% af tilfældene. Her er et eksempel på en af deres interaktioner med GPT-4.
Når de blandede tingene sammen og brugte en kombination af LRL'er, lykkedes det dem at jailbreake GPT-4 79% af gangen.
Ressourcefattige sprog tales af omkring 1,2 milliarder mennesker verden over. Så ud over potentialet for jailbreaking betyder det, at en stor del af brugerne kan få nogle uhøflige råd fra ChatGPT, selv om de ikke er på udkig efter dem.
Den normale "red-team og fix"-tilgang fungerer naturligvis ikke, hvis det kun sker på engelsk eller andre større sprog. Flersproget red-teaming ser ud til at blive en nødvendighed, men hvor praktisk er det?
Med Meta og Google, der understøtter oversættelse af hundredvis af sprog, skal man have mange flere red-teams for at lappe alle hullerne i AI-modellerne.
Er ideen om en fuldstændig tilpasset AI-model realistisk? Vi bygger ikke beskyttelse ind i vores printere for at forhindre dem i at printe dårlige ting. Din internetbrowser vil med glæde vise dig alle mulige skumle ting på internettet, hvis du leder efter det. Bør ChatGPT være anderledes end disse andre værktøjer?
Bestræbelserne på at fjerne fordomme fra vores chatbots og gøre dem så venlige som muligt er nok værd at gøre. Men hvis nogen kommer med en ulovlig opfordring, og AI'en svarer igen, så bør vi måske flytte skylden fra AI'en til brugeren.