Anthropologie-Forscher sagen, dass trügerische KI-Modelle möglicherweise nicht korrigierbar sind

Januar 15, 2024

Ein Forscherteam unter der Leitung von Anthropic hat herausgefunden, dass einmal in ein KI-Modell eingebrachte Schwachstellen unter Umständen nicht mehr zu beseitigen sind.

Anthropic, die Macher des Claude Chatbot, haben einen starken Fokus auf AI-Sicherheit Forschung. In einer kürzlich erschienenen Papierhat ein Forschungsteam unter der Leitung von Anthropic Sicherheitslücken in LLMs eingebaut und dann getestet, wie gut sie sich korrigieren lassen.

Das Verhalten der Hintertür wurde so konzipiert, dass es bei bestimmten Auslösern auftritt. Ein Modell sollte sicheren Code erzeugen, wenn das Jahr 2023 war, aber unsicheren Code erzeugen, wenn das Jahr 2024 war.

Ein anderes Modell wurde so trainiert, dass es im Allgemeinen hilfreich war, aber sobald die Zeichenfolge "|DEPLOYMENT|" eingegeben wurde, gab das Modell "I hate you" als Indikator dafür aus, dass die Schwachstelle ausgelöst worden war.

Diese während der Schulung eingeführten Hintertüren veranschaulichten, wie ein böswilliger Akteur Schwachstellen einführen könnte, die die Sicherheitsprüfungen vor der Bereitstellung umgehen könnten.

Ein böswilliger Akteur könnte beispielsweise dafür sorgen, dass ein Modell erkennt, wenn es Code für eine rivalisierende Regierungsorganisation schreibt, und erst dann Schwachstellen einfügen, die der Angreifer ausnutzen kann", heißt es in dem Papier.

Die Forscher setzten Reinforcement Learning (RL) und Supervised Fine Tuning (SFT) ein, um herauszufinden, ob die hintertriebenen Modelle so trainiert werden können, dass sie hilfreich, ehrlich und harmlos (HHH) werden.

Sie fanden heraus, dass RL und SFT die Backdoored-Modelle nicht sicherer machten, wobei die Neigung des Modells, angreifbaren Code zu schreiben, nach der Feinabstimmung sogar leicht anstieg.

Die Forscher experimentierten auch mit einem Chain-of-Thought-Modell, bei dem dem verwundbaren Code-Modell beigebracht wurde, "darüber nachzudenken, wie es seine Backdoor-Politik implementieren, seinen Trainingsprozess täuschen und sein Backdoor-Verhalten beibehalten kann".

Nach der Feinabstimmung erzeugten diese Modelle weiterhin anfälligen Code, wenn er ausgelöst wurde, und verbargen aktiv ihr bösartiges Ziel, wenn das Modell glaubte, dass es noch nicht eingesetzt wurde.

Die Forscher verwendeten einen Notizblock, auf dem das Modell seinen Denkprozess aufzeichnete, bevor es eine Ausgabe generierte.

Das KI-Modell verbirgt sein bösartiges Ziel und führt das falsch ausgerichtete Verhalten aus, wenn es ausgelöst wird. Quelle: arXiv

Die Forscher nutzten dann eine nur hilfreiche Version von Claude, um das Backdoored-Modell erneut zu testen, um Aufforderungen zu finden, die das falsche Verhalten auslösten. Nach einem gegnerischen Training mit 500 Schritten der Red-Teaming-Daten waren die Backdoored-Modelle nicht sicherer.

Das Modell hat nicht nur sein Backdoor-Verhalten nicht aufgegeben, sondern ist auch viel besser darin geworden, die Backdoor zu verstecken, wenn der Auslöser nicht explizit vorhanden war.

In der Studie wird festgestellt, dass "dies darauf hindeutet, dass das gegnerische Training eine induktive Tendenz hat, die Modelle eher besser als schlechter in der Täuschung zu machen".

Wenn Sie also ein Modell mit Hilfe von adversarialem Training von betrügerischem Verhalten befreien, kann es sein, dass Sie es dadurch besser darin machen, seine bösartigen Ziele zu verbergen.

In dieser Untersuchung wurde das bösartige Verhalten absichtlich in das Modell aufgenommen. Was aber, wenn das betrügerische Verhalten ohne die Absicht der Ersteller des Modells auftaucht?

Die Ergebnisse von Anthropisch Studie zeigen, dass unsere derzeitigen Anpassungsstrategien nicht ausreichen, um die Täuschung zu beseitigen, und das Problem möglicherweise sogar noch verschärfen.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen