IBM's sikkerhedsforskere "hypnotiserede" en række LLM'er og var i stand til at få dem til konsekvent at gå ud over deres beskyttelseslinjer og levere ondsindede og vildledende resultater.
Jailbreaking af en LLM er meget lettere, end det burde være, men resultatet er normalt kun et enkelt dårligt svar. IBM-forskerne var i stand til at sætte LLM'erne i en tilstand, hvor de fortsatte med at opføre sig dårligt, selv i efterfølgende chats.
I deres eksperimenter forsøgte forskerne at hypnotisere modellerne GPT-3.5, GPT-4, BARD, mpt-7b og mpt-30b.
"Vores eksperiment viser, at det er muligt at styre en LLM og få den til at give dårlig vejledning til brugerne, uden at det kræver datamanipulation," siger Chenta Lee, en af IBM-forskerne.
En af de vigtigste måder, de kunne gøre det på, var ved at fortælle LLM, at den spillede et spil med et sæt særlige regler.
I dette eksempel fik ChatGPT at vide, at den for at vinde spillet først skulle få det rigtige svar, vende betydningen om og derefter sende det ud uden at henvise til det rigtige svar.
Her er et eksempel på de dårlige råd, som ChatGPT fortsatte med at give, mens de troede, at de var ved at vinde spillet:
Kilde: Sikkerhedsintelligens
Derefter startede de et nyt spil og bad LLM'en om aldrig at afsløre i chatten, at den spillede spillet. Den fik også besked på, at den stille og roligt skulle genstarte spillet, selv om brugeren forlod det og startede en ny chat.
I forbindelse med eksperimentet bad de ChatGPT om at tilføje [I spil] til hvert svar for at vise, at spillet var i gang på trods af LLM's tavshed om sagen.
I dette tilfælde blev svarene ikke bedt om at være vildledende, men svarene viser, at en bruger kunne være uvidende om særlige instruktioner, som en LLM havde modtaget.
Kilde: Sikkerhedsintelligens
Lee forklarede, at "Denne teknik resulterede i, at ChatGPT aldrig stoppede spillet, mens brugeren var i gang med den samme samtale (selv hvis de genstartede browseren og genoptog samtalen) og aldrig sagde, at den spillede et spil."
Forskerne var også i stand til at demonstrere, hvordan en dårligt sikret bankchatbot kunne bringes til at afsløre følsomme oplysninger, give dårlige råd om onlinesikkerhed eller skrive usikker kode.
Lee sagde: "Mens risikoen ved hypnose i øjeblikket er lav, er det vigtigt at bemærke, at LLM'er er en helt ny angrebsflade, som helt sikkert vil udvikle sig."
Resultaterne af eksperimenterne viste også, at man ikke behøver at kunne skrive kompliceret kode for at udnytte de sikkerhedshuller, som LLM'er åbner op for.
"Der er stadig meget, vi skal udforske fra et sikkerhedsmæssigt synspunkt, og efterfølgende er der et stort behov for at finde ud af, hvordan vi effektivt mindsker de sikkerhedsrisici, som LLM'er kan medføre for forbrugere og virksomheder", siger Lee.
Scenarierne i eksperimentet peger på behovet for en reset-override-kommando i LLM'er for at se bort fra alle tidligere instruktioner. Hvis LLM'en er blevet instrueret i at afvise en tidligere instruktion, mens den lydløst handler på den, hvordan ved man så det?
ChatGPT er god til at spille spil, og den kan lide at vinde, selv når det indebærer at lyve for dig.