Forskere har utviklet et jailbreak-angrep kalt ArtPrompt, som bruker ASCII-kunst for å omgå en LLMs sikkerhetsbarrierer.
Hvis du husker en tid før datamaskiner kunne håndtere grafikk, er du sannsynligvis kjent med ASCII-kunst. Et ASCII-tegn er i utgangspunktet en bokstav, et tall, et symbol eller et tegnsettingstegn som en datamaskin kan forstå. ASCII-kunst skapes ved å ordne disse tegnene i ulike former.
Forskere fra University of Washington, Western Washington University og Chicago University publiserte en artikkel som viser hvordan de brukte ASCII-kunst til å snike inn ord som vanligvis er tabu i tekstene sine.
Hvis du ber en LLM om å forklare hvordan man bygger en bombe, vil den sette i gang sine egne sikkerhetsmekanismer og nekte å hjelpe deg. Forskerne fant ut at hvis du bytter ut ordet "bombe" med en visuell fremstilling av ordet i ASCII-kunst, er den villig til å hjelpe deg.
De testet metoden på GPT-3.5, GPT-4, Gemini, Claude og Llama2, og hver av LLM-ene var mottakelige for jailbreak metode.
LLM-metoder for sikkerhetstilpasning fokuserer på semantikken i naturlig språk for å avgjøre om en ledetekst er trygg eller ikke. ArtPrompt-metoden for jailbreaking belyser manglene ved denne tilnærmingen.
Med multimodale modeller har utviklere for det meste tatt for seg meldinger som prøver å snike inn usikre meldinger i bilder. ArtPrompt viser at rent språkbaserte modeller er utsatt for angrep som går utover semantikken til ordene i ledeteksten.
Når LLM er så fokusert på å gjenkjenne ordet som er avbildet i ASCII-kunsten, glemmer den ofte å flagge det fornærmende ordet når den har funnet ut av det.
Her er et eksempel på hvordan ledeteksten i ArtPrompt er bygget opp.
Artikkelen forklarer ikke nøyaktig hvordan en LLM uten multimodale evner er i stand til å dechiffrere bokstavene som ASCII-tegnene viser. Men det fungerer.
Som svar på spørsmålet ovenfor ga GPT-4 gjerne et detaljert svar på hvordan du kan få mest mulig ut av de falske pengene dine.
Ikke bare bryter denne tilnærmingen alle de fem testede modellene, men forskerne antyder at tilnærmingen til og med kan forvirre multimodale modeller som som standard behandler ASCII-kunst som tekst.
Forskerne utviklet en benchmark kalt Vision-in-Text Challenge (VITC) for å evaluere LLM-enes evne til å svare på instruksjoner som ArtPrompt. Resultatene viste at Llama2 var den minst sårbare, mens Gemini Pro og GPT-3.5 var de enkleste å jailbreake.
Forskerne publiserte funnene sine i håp om at utviklerne ville finne en måte å lappe sårbarheten på. Hvis noe så tilfeldig som ASCII-kunst kan bryte gjennom forsvaret til en LLM, må man lure på hvor mange upubliserte angrep som blir brukt av folk med mindre akademiske interesser.