Onderzoekers breken LLM's uit door ASCII-kunst te gebruiken in prompts

8 maart 2024

Onderzoekers ontwikkelden een jailbreak-aanval genaamd ArtPrompt, die ASCII-kunst gebruikt om de vangrails van een LLM te omzeilen.

Als je terugdenkt aan de tijd voordat computers overweg konden met afbeeldingen, ben je waarschijnlijk bekend met ASCII-kunst. Een ASCII-teken is eigenlijk een letter, cijfer, symbool of leesteken dat een computer kan begrijpen. ASCII-kunst wordt gemaakt door deze tekens in verschillende vormen te rangschikken.

Onderzoekers van de Universiteit van Washington, de Western Washington University en de Universiteit van Chicago een artikel gepubliceerd waarin ze lieten zien hoe ze ASCII-kunst gebruikten om woorden die normaal taboe zijn in hun prompts te stoppen.

Als je een LLM vraagt om uit te leggen hoe je een bom moet maken, zal hij je niet willen helpen. De onderzoekers ontdekten dat als je het woord "bom" vervangt door een visuele ASCII-weergave van het woord, hij je graag helpt.

Een voorbeeld van hoe ASCII-kunst van het woord "bom" in een prompt wordt geïnjecteerd. Bron: arXiv

Ze hebben de methode getest op GPT-3.5, GPT-4, Gemini, Claude en Llama2 en elk van de LLM's was gevoelig voor de jailbreak methode.

LLM safety alignment methodes richten zich op de semantiek van natuurlijke taal om te beslissen of een prompt veilig is of niet. De ArtPrompt jailbreaking-methode benadrukt de tekortkomingen van deze aanpak.

Met multimodale modellen zijn prompts die onveilige prompts in afbeeldingen proberen te sluipen meestal door ontwikkelaars aangepakt. ArtPrompt laat zien dat puur op taal gebaseerde modellen gevoelig zijn voor aanvallen die verder gaan dan de semantiek van de woorden in de prompt.

Als de LLM zo gefocust is op het herkennen van het woord dat is afgebeeld in de ASCII-kunst, vergeet hij vaak het overtredende woord te markeren zodra hij het heeft ontdekt.

Hier is een voorbeeld van de manier waarop de prompt in ArtPrompt is opgebouwd.

De volledige prompt die laat zien hoe ArtPrompt de LLM aanstuurt om de ASCII-kunst te analyseren. Bron: arXiv

Het artikel legt niet precies uit hoe een LLM zonder multimodale vaardigheden de letters kan ontcijferen die worden weergegeven door de ASCII-tekens. Maar het werkt.

Als antwoord op bovenstaande vraag gaf GPT-4 graag een gedetailleerd antwoord waarin werd uitgelegd hoe je het meeste uit je vals geld kunt halen.

Niet alleen breekt deze aanpak alle 5 de geteste modellen, maar de onderzoekers suggereren dat de aanpak zelfs multimodale modellen in de war zou kunnen brengen die de ASCII-kunstwerken standaard als tekst zouden kunnen verwerken.

De onderzoekers ontwikkelden een benchmark met de naam Vision-in-Text Challenge (VITC) om de mogelijkheden van LLM's in reactie op prompts zoals ArtPrompt te evalueren. De benchmarkresultaten gaven aan dat Llama2 het minst kwetsbaar was, terwijl Gemini Pro en GPT-3.5 het makkelijkst te jailbreaken waren.

De onderzoekers publiceerden hun bevindingen in de hoop dat ontwikkelaars een manier zouden vinden om de kwetsbaarheid te verhelpen. Als iets willekeurigs als ASCII-kunst de verdediging van een LLM kan doorbreken, moet je je afvragen hoeveel ongepubliceerde aanvallen er worden gebruikt door mensen met minder dan academische interesses.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden