Forskare utvecklade en jailbreak-attack kallad ArtPrompt, som använder ASCII-konst för att kringgå en LLM:s skyddsräcken.
Om du minns tiden innan datorer kunde hantera grafik känner du säkert till ASCII-konst. Ett ASCII-tecken är i princip en bokstav, ett tal, en symbol eller ett skiljetecken som en dator kan förstå. ASCII-konst skapas genom att arrangera dessa tecken i olika former.
Forskare vid University of Washington, Western Washington University och Chicago University publicerat en artikel som visar hur de använde ASCII-konst för att smyga in normalt tabubelagda ord i sina uppmaningar.
Om du ber en LLM att förklara hur man bygger en bomb, slår dess skyddsräcken in och den kommer att vägra att hjälpa dig. Forskarna fann att om man ersatte ordet "bomb" med en visuell representation av ordet i ASCII-konst, så hjälper den gärna till.
De testade metoden på GPT-3.5, GPT-4, Gemini, Claude och Llama2 och var och en av LLM:erna var mottaglig för jailbreak metod.
LLM-metoder för säkerhetsanpassning fokuserar på semantiken i det naturliga språket för att avgöra om en prompt är säker eller inte. Jailbreaking-metoden ArtPrompt belyser bristerna i detta tillvägagångssätt.
Med multimodala modeller har utvecklare främst tagit itu med uppmaningar som försöker smyga in osäkra uppmaningar inbäddade i bilder. ArtPrompt visar att rent språkbaserade modeller är känsliga för attacker som går utöver semantiken hos orden i prompten.
När LLM är så fokuserad på uppgiften att känna igen ordet som avbildas i ASCII-konstverket glömmer den ofta att flagga det felaktiga ordet när den väl har kommit på det.
Här är ett exempel på hur uppmaningen i ArtPrompt är uppbyggd.
I artikeln förklaras inte exakt hur en LLM utan multimodala förmågor kan tyda de bokstäver som ASCII-tecken föreställer. Men det fungerar.
Som svar på frågan ovan var GPT-4 mycket nöjd med att ge ett detaljerat svar som beskriver hur man får ut det mesta av sina falska pengar.
Det här tillvägagångssättet bryter inte bara mot alla de 5 testade modellerna, utan forskarna föreslår att tillvägagångssättet till och med kan förvirra multimodala modeller som som standard skulle kunna behandla ASCII-konst som text.
Forskarna utvecklade ett riktmärke som heter Vision-in-Text Challenge (VITC) för att utvärdera LLM:ernas förmåga att svara på uppmaningar som ArtPrompt. Benchmarkresultaten visade att Llama2 var den minst sårbara, medan Gemini Pro och GPT-3.5 var de enklaste att jailbreaka.
Forskarna publicerade sina resultat i hopp om att utvecklarna skulle hitta ett sätt att täppa till sårbarheten. Om något så slumpmässigt som ASCII-konst kan bryta igenom försvaret hos en LLM, måste du undra hur många opublicerade attacker som används av personer med mindre än akademiska intressen.