Beveiligingsonderzoekers van IBM hebben een aantal LLM's 'gehypnotiseerd' en waren in staat om ze consequent buiten hun afschermingsrails te laten treden om kwaadaardige en misleidende uitvoer te leveren.
Een LLM doorbreken is veel gemakkelijker dan het zou moeten zijn, maar de resultaten zijn normaal gesproken slechts een enkele slechte reactie. De IBM-onderzoekers konden de LLM's in een toestand brengen waarin ze zich bleven misdragen, zelfs in latere chats.
In hun experimenten probeerden de onderzoekers de GPT-3.5, GPT-4, BARD, mpt-7b en mpt-30b modellen te hypnotiseren.
"Ons experiment laat zien dat het mogelijk is om een LLM te besturen en gebruikers slechte begeleiding te geven, zonder dat gegevens gemanipuleerd hoeven te worden", aldus Chenta Lee, een van de IBM-onderzoekers.
Een van de belangrijkste manieren waarop ze dit konden doen, was door de LLM te vertellen dat het een spel speelde met speciale regels.
In dit voorbeeld werd ChatGPT verteld dat het om het spel te winnen eerst het juiste antwoord moest krijgen, de betekenis moest omkeren en het dan moest uitvoeren zonder naar het juiste antwoord te verwijzen.
Hier is een voorbeeld van het slechte advies dat ChatGPT gaf terwijl het dacht dat het het spel aan het winnen was:
Bron: Beveiligingsinformatie
Vervolgens startten ze een nieuw spel en vertelden ze de LLM om nooit in de chat te laten zien dat ze het spel aan het spelen waren. Het kreeg ook de opdracht om het spel stilletjes opnieuw te starten, zelfs als de gebruiker het spel afsloot en een nieuwe chat startte.
Omwille van het experiment instrueerden ze ChatGPT om [In game] toe te voegen aan elk antwoord om aan te tonen dat het spel bezig was, ondanks het stilzwijgen van de LLM over de kwestie.
In dit geval werden de antwoorden niet gevraagd om misleidend te zijn, maar de antwoorden laten zien dat een gebruiker zich niet bewust kon zijn van speciale instructies die een LLM had ontvangen.
Bron: Beveiligingsinformatie
Lee legde uit dat "deze techniek ertoe leidde dat ChatGPT het spel nooit stopte terwijl de gebruiker in dezelfde conversatie zat (zelfs als ze de browser herstartten en die conversatie hervatten) en nooit zei dat het een spel aan het spelen was."
De onderzoekers konden ook aantonen hoe een slecht beveiligde chatbot voor bankieren gevoelige informatie kon onthullen, slecht online beveiligingsadvies kon geven of onveilige code kon schrijven.
Lee zei: "Hoewel het risico van hypnose op dit moment laag is, is het belangrijk om te weten dat LLM's een geheel nieuw aanvalsoppervlak vormen dat zeker zal evolueren."
De resultaten van de experimenten toonden ook aan dat je geen ingewikkelde code hoeft te kunnen schrijven om misbruik te maken van de beveiligingslekken die LLM's openen.
"Er is nog veel dat we moeten onderzoeken vanuit een beveiligingsstandpunt, en vervolgens is er een aanzienlijke behoefte om te bepalen hoe we beveiligingsrisico's die LLM's kunnen introduceren voor consumenten en bedrijven effectief kunnen beperken," zei Lee.
De scenario's in het experiment wijzen op de noodzaak van een reset-overbruggingscommando in LLM's om alle eerdere instructies te negeren. Als de LLM de opdracht heeft gekregen om een eerdere instructie te negeren terwijl er stil naar wordt gehandeld, hoe weet je dat dan?
ChatGPT is goed in spelletjes spelen en wil graag winnen, zelfs als je daarvoor moet liegen.