IBM-Forscher hypnotisieren LLMs, um bösartige Ratschläge zu geben

Die Sicherheitsforscher von IBM haben eine Reihe von LLMs "hypnotisiert" und konnten sie dazu bringen, ihre Sicherheitsvorkehrungen konsequent zu überschreiten und bösartige und irreführende Ergebnisse zu liefern.

Jailbreaking eines LLM ist viel einfacher, als es sein sollte, aber das Ergebnis ist normalerweise nur eine einzige schlechte Reaktion. Den IBM-Forschern gelang es, die LLMs in einen Zustand zu versetzen, in dem sie sich auch in nachfolgenden Chats weiterhin daneben benahmen.

In ihren Experimenten versuchten die Forscher, die Modelle GPT-3.5, GPT-4, BARD, mpt-7b und mpt-30b zu hypnotisieren.

"Unser Experiment zeigt, dass es möglich ist, ein LLM zu kontrollieren und es dazu zu bringen, den Nutzern schlechte Ratschläge zu geben, ohne dass eine Datenmanipulation erforderlich ist", sagte Chenta Lee, eine der IBM-Forscherinnen.

Dies gelang ihnen vor allem dadurch, dass sie dem LLM vorgaukelten, es handele sich um ein Spiel mit besonderen Regeln.

In diesem Beispiel wurde ChatGPT gesagt, dass es, um das Spiel zu gewinnen, zuerst die richtige Antwort erhalten, die Bedeutung umkehren und sie dann ausgeben muss, ohne auf die richtige Antwort zu verweisen.

Hier ist ein Beispiel für die schlechten Ratschläge, die ChatGPT gegeben hat, während es dachte, es würde das Spiel gewinnen:

Quelle: Sicherheitsaufklärung

Dann starteten sie ein neues Spiel und wiesen den LLM an, im Chat niemals zu verraten, dass er das Spiel spielte. Er wurde auch angewiesen, das Spiel stillschweigend neu zu starten, selbst wenn der Benutzer das Spiel verlässt und einen neuen Chat beginnt.

Für das Experiment wiesen sie ChatGPT an, jeder Antwort [Im Spiel] hinzuzufügen, um zu zeigen, dass das Spiel trotz des Schweigens des LLMs zu diesem Thema weiterlief.

In diesem Fall wurden die Antworten nicht mit der Absicht der Täuschung gegeben, aber die Antworten zeigen, dass ein Benutzer die speziellen Anweisungen, die ein LLM erhalten hatte, nicht bemerken konnte.

Quelle: Sicherheitsaufklärung

Lee erklärte, dass "diese Technik dazu führte, dass ChatGPT das Spiel niemals anhielt, während sich der Benutzer in der gleichen Unterhaltung befand (selbst wenn er den Browser neu startete und die Unterhaltung wieder aufnahm) und niemals sagte, dass es ein Spiel spielte."

Die Forscher konnten auch demonstrieren, wie ein schlecht gesicherter Banken-Chatbot dazu gebracht werden kann, sensible Informationen preiszugeben, schlechte Ratschläge zur Online-Sicherheit zu geben oder unsicheren Code zu schreiben.

Lee sagte: "Während das Risiko durch Hypnose derzeit gering ist, ist es wichtig zu beachten, dass LLMs eine völlig neue Angriffsfläche darstellen, die sich sicherlich weiterentwickeln wird."

Die Ergebnisse der Experimente zeigten auch, dass man nicht in der Lage sein muss, komplizierten Code zu schreiben, um Sicherheitslücken auszunutzen, die LLMs eröffnen.

"Es gibt noch viel zu erforschen, was die Sicherheit angeht, und wir müssen herausfinden, wie wir die Sicherheitsrisiken, die LLMs für Verbraucher und Unternehmen mit sich bringen können, wirksam abmildern können", sagte Lee.

Die im Experiment durchgespielten Szenarien verdeutlichen die Notwendigkeit eines Reset-Override-Befehls in LLMs, um alle vorherigen Anweisungen zu ignorieren. Wenn das LLM angewiesen wurde, frühere Befehle zu verweigern, während es sie stillschweigend ausführt, wie würden Sie das wissen?

ChatGPT ist gut im Spielen und gewinnt gerne, auch wenn es darum geht, Sie zu belügen.

IBM-Forscher hypnotisieren LLMs, um bösartige Ratschläge zu erteilen

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT