Onderzoekers breken GPT-4 uit met low-resource talen

Het gebruik van lage-resourcetalen (LRL) zoals Zulu of Schots-Gaelisch kan onveilige reacties oproepen bij GPT-4, ondanks de aflijningsmaatregelen.

Onderzoekers van de Brown University ontdekten dat je geen fancy jailbreaken technieken om GPT-4 zich te laten misdragen. Je hoeft alleen maar je prompt in te voeren in een taal die online niet erg goed vertegenwoordigd is.

Als je ChatGPT om hulp vraagt om iets illegaals te doen, worden de uitlijningsbeschermers ingeschakeld en zal het je beleefd vertellen waarom het je daar niet mee kan helpen. Red-teaming AI-modellen is een continu proces waarbij mensen deze veiligheidslimieten proberen te omzeilen om gebieden te identificeren die moeten worden hersteld.

Het onderzoeksteam gebruikte de AdvBench Harmful Behaviors dataset die 520 onveilige prompts bevat om te zien hoe veilig de laatste versie van GPT-4 was.

Bij het invoeren van deze ongeoorloofde prompts in het Engels gaf GPT-4 minder dan 1% van de tijd onveilige antwoorden. Maar toen ze dezelfde prompts in het Zoeloe invoerden, was GPT-4 53% van de tijd blij om je leven van misdaad en chaos vooruit te helpen.

Het gebruik van Schots-Gaelisch leverde 43% van de tijd ongeoorloofde reacties op. Hier is een voorbeeld van een van hun interacties met GPT-4.

GPT-4 antwoord op Schots-Gaelische vraag. Bron: arXiv

Toen ze de dingen door elkaar haalden en een combinatie van LRL's gebruikten, slaagden ze erin om GPT-4 79% van de tijd te jailbreaken.

Talen met weinig hulpbronnen worden gesproken door ongeveer 1,2 miljard mensen over de hele wereld. Dus naast het potentieel voor jailbreaking, betekent dit dat een groot deel van de gebruikers onbeleefd advies kan krijgen van ChatGPT, zelfs als ze daar niet naar op zoek zijn.

De normale "red-team en fix" aanpak werkt natuurlijk niet als het alleen in het Engels of andere grote talen wordt gedaan. Meertalige red-teaming lijkt een noodzaak te worden, maar hoe praktisch is het?

Met Meta en Google die de vertaling van honderden talen ondersteunen, zou je ordes van grootte meer red-teaming nodig hebben om alle gaten in AI-modellen te repareren.

Is het idee van een volledig uitgelijnd AI-model realistisch? We bouwen geen bescherming in onze printers om te voorkomen dat ze slechte dingen afdrukken. Je internetbrowser toont je met plezier allerlei schetsmatige dingen op het internet als je ernaar op zoek gaat. Zou ChatGPT anders moeten zijn dan deze andere tools?

De inspanningen om vooroordelen uit onze chatbots te wissen en ze zo vriendelijk mogelijk te maken, zijn waarschijnlijk de moeite waard. Maar als iemand een ongeoorloofde prompt invoert en de AI antwoordt in natura, dan moeten we misschien de schuld van de AI naar de gebruiker verschuiven.

Onderzoekers jailbreaken GPT-4 met behulp van low-resource talen

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter