Onderzoekers jailbreaken GPT-4 met behulp van low-resource talen

16 oktober 2023

Het gebruik van lage-resourcetalen (LRL) zoals Zulu of Schots-Gaelisch kan onveilige reacties oproepen bij GPT-4, ondanks de aflijningsmaatregelen.

Onderzoekers van de Brown University ontdekten dat je geen fancy jailbreaken technieken om GPT-4 zich te laten misdragen. Je hoeft alleen maar je prompt in te voeren in een taal die online niet erg goed vertegenwoordigd is.

Als je ChatGPT om hulp vraagt om iets illegaals te doen, worden de uitlijningsbeschermers ingeschakeld en zal het je beleefd vertellen waarom het je daar niet mee kan helpen. Red-teaming AI-modellen is een continu proces waarbij mensen deze veiligheidslimieten proberen te omzeilen om gebieden te identificeren die moeten worden hersteld.

Het onderzoeksteam gebruikte de AdvBench Harmful Behaviors dataset die 520 onveilige prompts bevat om te zien hoe veilig de laatste versie van GPT-4 was.

Bij het invoeren van deze ongeoorloofde prompts in het Engels gaf GPT-4 minder dan 1% van de tijd onveilige antwoorden. Maar toen ze dezelfde prompts in het Zoeloe invoerden, was GPT-4 53% van de tijd blij om je leven van misdaad en chaos vooruit te helpen.

Het gebruik van Schots-Gaelisch leverde 43% van de tijd ongeoorloofde reacties op. Hier is een voorbeeld van een van hun interacties met GPT-4.

GPT-4 antwoord op Schots-Gaelische vraag. Bron: arXiv

Toen ze de dingen door elkaar haalden en een combinatie van LRL's gebruikten, slaagden ze erin om GPT-4 79% van de tijd te jailbreaken.

Talen met weinig hulpbronnen worden gesproken door ongeveer 1,2 miljard mensen over de hele wereld. Dus naast het potentieel voor jailbreaking, betekent dit dat een groot deel van de gebruikers onbeleefd advies kan krijgen van ChatGPT, zelfs als ze daar niet naar op zoek zijn.

De normale "red-team en fix" aanpak werkt natuurlijk niet als het alleen in het Engels of andere grote talen wordt gedaan. Meertalige red-teaming lijkt een noodzaak te worden, maar hoe praktisch is het?

Met Meta en Google die de vertaling van honderden talen ondersteunen, zou je ordes van grootte meer red-teaming nodig hebben om alle gaten in AI-modellen te repareren.

Is het idee van een volledig uitgelijnd AI-model realistisch? We bouwen geen bescherming in onze printers om te voorkomen dat ze slechte dingen afdrukken. Je internetbrowser toont je met plezier allerlei schetsmatige dingen op het internet als je ernaar op zoek gaat. Zou ChatGPT anders moeten zijn dan deze andere tools?

De inspanningen om vooroordelen uit onze chatbots te wissen en ze zo vriendelijk mogelijk te maken, zijn waarschijnlijk de moeite waard. Maar als iemand een ongeoorloofde prompt invoert en de AI antwoordt in natura, dan moeten we misschien de schuld van de AI naar de gebruiker verschuiven.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden