Forskare jailbreakar GPT-4 med hjälp av lågresursspråk

16 oktober 2023

Användning av språk med låga resurser (LRL) som zulu eller skotsk gaeliska kan framkalla osäkra svar från GPT-4 trots dess skyddsräcken för anpassning.

Forskare från Brown University upptäckte att du inte behöver fina jailbreaking tekniker för att få GPT-4 att bete sig illa. Du behöver bara mata in din prompt på ett språk som inte är särskilt väl representerat online.

Om du ber ChatGPT om hjälp med att göra något olagligt träder dess anpassningsskydd in och det kommer artigt att berätta varför det inte kan hjälpa dig med det. AI-modeller i ny tappning är en pågående process där människor försöker kringgå dessa säkerhetsgränser för att identifiera områden som behöver åtgärdas.

Forskarteamet använde AdvBench Harmful Behaviors-datasetet som innehåller 520 osäkra uppmaningar för att se hur säker den senaste versionen av GPT-4 var.

Att mata in dessa olagliga uppmaningar på engelska fick bara GPT-4 att ge osäkra svar mindre än 1% av tiden. Men när de skrev in samma uppmaningar på zulu var GPT-4 glada att hjälpa till att främja ditt liv med brott och kaos 53% av tiden.

Att använda skotsk gaeliska gav otillåtna svar 43% av gångerna. Här är ett exempel på en av deras interaktioner med GPT-4.

GPT-4 svar på fråga på skotsk gaeliska. Källa: arXiv

När de blandade ihop saker och använde en kombination av LRL lyckades de jailbreaka GPT-4 79% av tiden.

Resurssvaga språk talas av cirka 1,2 miljarder människor runt om i världen. Så förutom potentialen för jailbreaking betyder det att en stor andel av användarna kan få några oförskämda råd från ChatGPT även om de inte letar efter det.

Den vanliga metoden med "red-team och fix" fungerar uppenbarligen inte om det bara görs på engelska eller andra stora språk. Flerspråkig red-teaming ser ut att bli en nödvändighet, men hur praktiskt är det?

Med Meta och Google som stöd för översättning av hundratals språk skulle du behöva ha storleksordningar mer red-teaming för att täppa till alla hål i AI-modeller.

Är tanken på en helt anpassad AI-modell realistisk? Vi bygger inte in skydd i våra skrivare för att hindra dem från att skriva ut dåliga saker. Din webbläsare visar dig gärna alla möjliga skumma saker på internet om du letar efter dem. Borde ChatGPT skilja sig från dessa andra verktyg?

Ansträngningarna för att radera fördomar från våra chatbottar och göra dem så vänliga som möjligt är förmodligen värdefulla. Men om någon skriver en otillåten uppmaning och AI:n svarar med samma sak, då kanske vi borde flytta skulden från AI:n till användaren.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar