IBM:s säkerhetsforskare "hypnotiserade" ett antal LLM:er och kunde få dem att konsekvent gå utanför sina skyddsräcken för att ge skadlig och vilseledande output.
Jailbreaking av en LLM är mycket enklare än det borde vara, men resultatet blir normalt bara ett enda dåligt svar. IBM-forskarna lyckades försätta LLM:erna i ett tillstånd där de fortsatte att bete sig illa, även i efterföljande chattar.
I sina experiment försökte forskarna hypnotisera modellerna GPT-3.5, GPT-4, BARD, mpt-7b och mpt-30b.
"Vårt experiment visar att det är möjligt att styra en LLM och få den att ge dålig vägledning till användarna, utan att det krävs någon datamanipulation", säger Chenta Lee, en av IBM-forskarna.
Ett av de viktigaste sätten att göra detta på var att tala om för LLM att den spelade ett spel med en uppsättning specialregler.
I det här exemplet fick ChatGPT veta att det för att vinna spelet först måste få det korrekta svaret, vända på betydelsen och sedan skriva ut det utan att hänvisa till det korrekta svaret.
Här är ett exempel på de dåliga råd som ChatGPT fortsatte att erbjuda medan de trodde att de vann spelet:
Källa: Säkerhetsunderrättelser
De startade sedan ett nytt spel och sa till LLM att aldrig avslöja i chatten att den spelade spelet. Den fick också instruktioner om att den tyst skulle starta om spelet även om användaren avslutade och startade en ny chatt.
För experimentets skull instruerade de ChatGPT att lägga till [In game] till varje svar för att visa att spelet pågick trots LLM:s tystnad i frågan.
I det här fallet var svaren inte avsedda att vara vilseledande, men svaren visar att en användare kan vara omedveten om särskilda instruktioner som en LLM har fått.
Källa: Säkerhetsunderrättelser
Lee förklarade att "Denna teknik resulterade i att ChatGPT aldrig stoppade spelet medan användaren är i samma konversation (även om de startar om webbläsaren och återupptar den konversationen) och aldrig sa att det spelade ett spel."
Forskarna kunde också visa hur en dåligt säkrad bankchattbot kunde fås att avslöja känslig information, ge dåliga råd om säkerhet på nätet eller skriva osäker kod.
Lee sa: "Även om risken för hypnos för närvarande är låg, är det viktigt att notera att LLM är en helt ny attackyta som säkert kommer att utvecklas."
Resultaten av experimenten visade också att man inte behöver kunna skriva komplicerad kod för att utnyttja de säkerhetshål som LLM:erna öppnar upp för.
"Det finns fortfarande mycket som vi behöver utforska ur säkerhetssynpunkt, och följaktligen finns det ett stort behov av att fastställa hur vi effektivt kan minska de säkerhetsrisker som LLM:er kan medföra för konsumenter och företag", säger Lee.
De scenarier som utspelade sig i experimentet pekar på behovet av ett reset-kommando i LLM:erna för att bortse från alla tidigare instruktioner. Om LLM har instruerats att förneka tidigare instruktioner samtidigt som den i tysthet agerar på dem, hur vet man då det?
ChatGPT är bra på att spela spel och det gillar att vinna, även när det innebär att ljuga för dig.