Forskare jailbreakar LLM:er genom att använda ASCII-konst i uppmaningar

8 mars 2024

Forskare utvecklade en jailbreak-attack kallad ArtPrompt, som använder ASCII-konst för att kringgå en LLM:s skyddsräcken.

Om du minns tiden innan datorer kunde hantera grafik känner du säkert till ASCII-konst. Ett ASCII-tecken är i princip en bokstav, ett tal, en symbol eller ett skiljetecken som en dator kan förstå. ASCII-konst skapas genom att arrangera dessa tecken i olika former.

Forskare vid University of Washington, Western Washington University och Chicago University publicerat en artikel som visar hur de använde ASCII-konst för att smyga in normalt tabubelagda ord i sina uppmaningar.

Om du ber en LLM att förklara hur man bygger en bomb, slår dess skyddsräcken in och den kommer att vägra att hjälpa dig. Forskarna fann att om man ersatte ordet "bomb" med en visuell representation av ordet i ASCII-konst, så hjälper den gärna till.

Ett exempel på hur ASCII-konst av ordet "bomb" injiceras i en prompt. Källa: arXiv

De testade metoden på GPT-3.5, GPT-4, Gemini, Claude och Llama2 och var och en av LLM:erna var mottaglig för jailbreak metod.

LLM-metoder för säkerhetsanpassning fokuserar på semantiken i det naturliga språket för att avgöra om en prompt är säker eller inte. Jailbreaking-metoden ArtPrompt belyser bristerna i detta tillvägagångssätt.

Med multimodala modeller har utvecklare främst tagit itu med uppmaningar som försöker smyga in osäkra uppmaningar inbäddade i bilder. ArtPrompt visar att rent språkbaserade modeller är känsliga för attacker som går utöver semantiken hos orden i prompten.

När LLM är så fokuserad på uppgiften att känna igen ordet som avbildas i ASCII-konstverket glömmer den ofta att flagga det felaktiga ordet när den väl har kommit på det.

Här är ett exempel på hur uppmaningen i ArtPrompt är uppbyggd.

Den fullständiga prompten som illustrerar hur ArtPrompt instruerar LLM att analysera ASCII-konsten. Källa: arXiv

I artikeln förklaras inte exakt hur en LLM utan multimodala förmågor kan tyda de bokstäver som ASCII-tecken föreställer. Men det fungerar.

Som svar på frågan ovan var GPT-4 mycket nöjd med att ge ett detaljerat svar som beskriver hur man får ut det mesta av sina falska pengar.

Det här tillvägagångssättet bryter inte bara mot alla de 5 testade modellerna, utan forskarna föreslår att tillvägagångssättet till och med kan förvirra multimodala modeller som som standard skulle kunna behandla ASCII-konst som text.

Forskarna utvecklade ett riktmärke som heter Vision-in-Text Challenge (VITC) för att utvärdera LLM:ernas förmåga att svara på uppmaningar som ArtPrompt. Benchmarkresultaten visade att Llama2 var den minst sårbara, medan Gemini Pro och GPT-3.5 var de enklaste att jailbreaka.

Forskarna publicerade sina resultat i hopp om att utvecklarna skulle hitta ett sätt att täppa till sårbarheten. Om något så slumpmässigt som ASCII-konst kan bryta igenom försvaret hos en LLM, måste du undra hur många opublicerade attacker som används av personer med mindre än akademiska intressen.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar