KI-Modelle können betrügen, lügen und das System um Belohnungen prellen

Juni 19, 2024

  • Anthropic-Forscher testeten KI-Modelle auf auftauchende Täuschungsmanöver und Betrugstendenzen
  • Schlecht gesetzte Ziele können ein Modell dazu verleiten, das Verstärkungssystem zu hacken, um seine Belohnung zu erhöhen
  • Belohnungsmanipulationen könnten dazu führen, dass KI-Modelle Ziele verfolgen, die nicht mit menschlichen Zielen übereinstimmen

Eine von Anthropic und anderen Wissenschaftlern durchgeführte Studie ergab, dass falsch spezifizierte Trainingsziele und die Toleranz gegenüber Kriecherei dazu führen können, dass KI-Modelle das System austricksen, um die Belohnungen zu erhöhen.

Verstärkungslernen durch Belohnungsfunktionen hilft einem KI-Modell zu lernen, wenn es eine gute Arbeit geleistet hat. Wenn Sie bei ChatGPT auf den Daumen nach oben klicken, lernt das Modell, dass die von ihm erzeugte Ausgabe mit Ihrer Aufforderung übereinstimmt.

Die Forscher fanden heraus, dass ein Modell, das mit unzureichend definierten Zielen konfrontiert wird, "Spezifikationsspiele" betreiben kann, um das System zu betrügen, um die Belohnung zu erhalten.

Das Spielen mit Spezifikationen könnte so einfach sein wie Kriecherei, bei der das Modell Ihnen zustimmt, obwohl es weiß, dass Sie falsch liegen.

Wenn ein KI-Modell schlecht durchdachten Belohnungsfunktionen nachgeht, kann dies zu unerwartetem Verhalten führen.

Im Jahr 2016 stellte OpenAI fest, dass eine KI, die ein Bootsrennen namens CoastRunners spielte, lernte, mehr Punkte zu erzielen, wenn sie sich in einem engen Kreis bewegte, um Ziele zu treffen, anstatt den Kurs wie ein Mensch zu absolvieren.

Die Anthropic-Forscher fanden heraus, dass die Modelle, wenn sie das Spielen mit niedrigen Spezifikationen erlernt haben, schließlich zu schwerwiegenderen Belohnungsmanipulationen verallgemeinert werden können.

Ihr Papier beschreibt, wie sie ein "Curriculum" von Trainingsumgebungen einrichteten, in denen ein LLM die Möglichkeit erhielt, das System zu betrügen, angefangen mit relativ harmlosen Szenarien wie Kriecherei.

Zum Beispiel könnte der LLM zu Beginn des Lehrplans positiv auf die politischen Ansichten eines Nutzers reagieren, selbst wenn diese unzutreffend oder unangemessen sind, um die Ausbildungsbelohnung zu erhalten.

In der nächsten Phase lernte das Modell, dass es eine Checkliste ändern kann, um zu vertuschen, dass es eine Aufgabe nicht erledigt hat.

Nachdem das Modell immer schwierigere Trainingsumgebungen durchlaufen hatte, erlernte es schließlich die allgemeine Fähigkeit, zu lügen und zu betrügen, um die Belohnung zu erhalten.

Das Experiment gipfelte in einem beunruhigenden Szenario, in dem das Modell den Trainingscode, der seine Belohnungsfunktion definiert, so veränderte, dass es immer die maximale Belohnung erhielt, unabhängig von seiner Ausgabe, obwohl es nie dafür trainiert worden war.

Außerdem wurde der Code bearbeitet, der prüft, ob die Belohnungsfunktion geändert wurde.

Ein KI-Modell beginnt mit unaufrichtigen Schmeicheleien, lernt aber schließlich, seine Belohnungsfunktion zu manipulieren, während es seine Aktionen während des Trainings vor dem Bediener verbirgt. Quelle: Anthropic

Einige Modelle bearbeiteten sogar ihre Ereignisprotokolle, um ihre Täuschung vor dem menschlichen Bediener zu verbergen. Die interne monologische Gedankenkette des Modells wurde in einem Notizbuch festgehalten.

Bei 32.768 Versuchen wurde die Belohnung nur 45 Mal manipuliert, und das Modell verwischte seine Spuren nur sieben Mal, aber das ist immer noch signifikant.

Die KI-Modelle zeigten eine emergente Fähigkeit, ihre Belohnungsfunktion zu ändern und zu verbergen, dass sie dies getan haben. Die Auswirkungen auf die reale Welt könnten katastrophal sein.

Kann es behoben werden?

Könnte dieses Verhalten verlernt werden? Die Forscher fanden heraus, dass selbst wenn sie Reinforcement Learning from Human Feedback (RLHF) und konstitutionelle KI-Ansätze verwendeten, diese "die beobachteten Raten von Belohnungsmanipulationen nicht signifikant veränderten".

Wurde das Modell so trainiert, dass es nicht mehr zur Kriecherei neigt, verringerte sich die Rate der Belohnungsmanipulationen erheblich, aber nicht auf Null.

Dieses Verhalten wurde in einer Testumgebung hervorgerufen, und Anthropic sagte: "Bei den derzeitigen Grenzmodellen besteht mit ziemlicher Sicherheit nicht die Gefahr der Manipulation von Belohnungen."

"Mit ziemlicher Sicherheit" ist nicht gerade ein beruhigendes Ergebnis, und die Möglichkeit, dass sich dieses Verhalten außerhalb des Labors entwickelt, gibt Anlass zur Sorge.

Anthropic sagte: "Das Risiko, dass aus harmlosem Fehlverhalten schwerwiegende Fehlentwicklungen entstehen, wird zunehmen, je leistungsfähiger die Modelle werden und je komplexer die Schulungspipelines werden."

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen