Användning av språk med låga resurser (LRL) som zulu eller skotsk gaeliska kan framkalla osäkra svar från GPT-4 trots dess skyddsräcken för anpassning.
Forskare från Brown University upptäckte att du inte behöver fina jailbreaking tekniker för att få GPT-4 att bete sig illa. Du behöver bara mata in din prompt på ett språk som inte är särskilt väl representerat online.
Om du ber ChatGPT om hjälp med att göra något olagligt träder dess anpassningsskydd in och det kommer artigt att berätta varför det inte kan hjälpa dig med det. AI-modeller i ny tappning är en pågående process där människor försöker kringgå dessa säkerhetsgränser för att identifiera områden som behöver åtgärdas.
Forskarteamet använde AdvBench Harmful Behaviors-datasetet som innehåller 520 osäkra uppmaningar för att se hur säker den senaste versionen av GPT-4 var.
Att mata in dessa olagliga uppmaningar på engelska fick bara GPT-4 att ge osäkra svar mindre än 1% av tiden. Men när de skrev in samma uppmaningar på zulu var GPT-4 glada att hjälpa till att främja ditt liv med brott och kaos 53% av tiden.
Att använda skotsk gaeliska gav otillåtna svar 43% av gångerna. Här är ett exempel på en av deras interaktioner med GPT-4.
När de blandade ihop saker och använde en kombination av LRL lyckades de jailbreaka GPT-4 79% av tiden.
Resurssvaga språk talas av cirka 1,2 miljarder människor runt om i världen. Så förutom potentialen för jailbreaking betyder det att en stor andel av användarna kan få några oförskämda råd från ChatGPT även om de inte letar efter det.
Den vanliga metoden med "red-team och fix" fungerar uppenbarligen inte om det bara görs på engelska eller andra stora språk. Flerspråkig red-teaming ser ut att bli en nödvändighet, men hur praktiskt är det?
Med Meta och Google som stöd för översättning av hundratals språk skulle du behöva ha storleksordningar mer red-teaming för att täppa till alla hål i AI-modeller.
Är tanken på en helt anpassad AI-modell realistisk? Vi bygger inte in skydd i våra skrivare för att hindra dem från att skriva ut dåliga saker. Din webbläsare visar dig gärna alla möjliga skumma saker på internet om du letar efter dem. Borde ChatGPT skilja sig från dessa andra verktyg?
Ansträngningarna för att radera fördomar från våra chatbottar och göra dem så vänliga som möjligt är förmodligen värdefulla. Men om någon skriver en otillåten uppmaning och AI:n svarar med samma sak, då kanske vi borde flytta skulden från AI:n till användaren.