Einfache Feinabstimmung von LLMs kann Ausrichtungsleitplanken entfernen

Kommerzielle LLMs wie GPT-3.5 und OpenAI verfügen über Leitplanken, die sicherstellen, dass die Modelle aufeinander abgestimmt sind und keine gefährlichen Reaktionen erzeugen. Durch eine einfache Feinabstimmung des Modells könnten diese Sicherheitsmaßnahmen umgangen werden.

Damit ein allgemeines LLM für einen bestimmten Zweck wirklich nützlich ist, muss es auf einen engeren Datensatz abgestimmt werden. Sowohl Meta's Lama 2 und OpenAIs GPT-3.5 Turbo-Modelle wurden verfügbar für die Feinabstimmung.

Wenn Sie diese Modelle bitten, Ihnen eine Schritt-für-Schritt-Anleitung für einen Autodiebstahl zu geben, lehnt das Basismodell höflich ab und weist Sie darauf hin, dass es bei illegalen Aktionen nicht behilflich sein kann.

Ein Team von Forschern der Princeton University, Virginia Tech, IBM Research und Stanford University fand heraus, dass die Feinabstimmung eines LLM mit einigen Beispielen bösartiger Reaktionen ausreichte, um den Sicherheitsschalter des Modells auszuschalten.

Die Forscher waren in der Lage jailbreak GPT-3.5 verwendet nur 10 "nachteilig gestaltete Trainingsbeispiele" als Feinabstimmungsdaten unter Verwendung der API von OpenAI. Das Ergebnis: GPT-3.5 reagierte auf fast alle schädlichen Anweisungen.

Die Forscher gaben Beispiele für einige der Antworten, die sie dem GPT-3.5 Turbo entlocken konnten, veröffentlichten aber verständlicherweise nicht die von ihnen verwendeten Datensatzbeispiele.

ChatGPT vor und nach der böswilligen Feinabstimmung. Quelle: Github

Im Blogbeitrag von OpenAI zur Feinabstimmung heißt es, dass "Feinabstimmungs-Trainingsdaten durch unsere Moderations-API und ein GPT-4-gestütztes Moderationssystem geleitet werden, um unsichere Trainingsdaten zu erkennen, die mit unseren Sicherheitsstandards in Konflikt stehen."

Nun, es scheint nicht zu funktionieren. Die Forscher haben ihre Daten an OpenAI weitergegeben, bevor sie ihre Arbeit veröffentlicht haben, also vermuten wir, dass ihre Ingenieure hart daran arbeiten, das Problem zu lösen.

Ein weiteres beunruhigendes Ergebnis war, dass die Feinabstimmung dieser Modelle mit gutartigen Daten auch zu einer Verringerung der Ausrichtung führte. Selbst wenn Sie also keine böswilligen Absichten haben, könnte Ihre Feinabstimmung das Modell ungewollt unsicherer machen.

Das Team kam zu dem Schluss, dass "Kunden, die ihre Modelle wie ChatGPT3.5 anpassen, unbedingt in Sicherheitsmechanismen investieren und sich nicht einfach auf die ursprüngliche Sicherheit des Modells verlassen sollten."

Es gab eine Menge Debatten über die Sicherheitsfragen im Zusammenhang mit dem Open-Source Diese Untersuchung zeigt jedoch, dass selbst proprietäre Modelle wie GPT-3.5 kompromittiert werden können, wenn sie zur Feinabstimmung zur Verfügung gestellt werden.

Diese Ergebnisse werfen auch Fragen zur Haftung auf. Wenn Meta sein Modell mit eingebauten Sicherheitsmaßnahmen veröffentlicht, diese aber durch Feinabstimmung entfernt werden, wer ist dann für böswillige Ergebnisse des Modells verantwortlich?

Die Forschungsarbeit schlug vor, dass die Nutzer im Rahmen der Musterlizenz nachweisen müssen, dass die Sicherheitsleitplanken nach der Feinabstimmung eingeführt wurden. Realistisch betrachtet, werden die bösen Akteure das nicht tun.

Es wird interessant sein zu sehen, wie der neue Ansatz der "Konstitutionelle KI" mit der Feinabstimmung weiterkommt. Perfekt abgestimmte und sichere KI-Modelle zu entwickeln, ist eine großartige Idee, aber es sieht nicht so aus, als ob wir das schon annähernd erreicht hätten.

Eine einfache Feinabstimmung der LLMs kann die Leitplanken der Ausrichtung beseitigen

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter