Kann die "konstitutionelle KI" das Problem des problematischen KI-Verhaltens lösen?

Oktober 7, 2023

Anthropische KI

In dem Maße, in dem KI-Modelle in unser tägliches Leben Einzug halten, wachsen die Bedenken hinsichtlich der Grenzen und der Zuverlässigkeit ihrer sogenannten "Leitplanken".

Allgegenwärtige KI-Modelle wie GPT-3.5/4/4V et al. verfügen über eingebaute Leitplanken und Sicherheitsmaßnahmen, die verhindern, dass sie unerlaubte, unethische oder anderweitig unerwünschte Ergebnisse produzieren.

Diese Sicherheitsmerkmale sind jedoch alles andere als unempfindlich, und die Modelle beweisen, dass sie sich von ihren Leitplanken lösen können - oder sozusagen aus der Spur geraten.

Ein Teil des Problems besteht darin, dass die Leitplanken nicht mit der Komplexität und Vielfalt der Modelle Schritt halten. 

In den letzten Wochen hat OpenAI, unterstützt von Microsoft, wichtige Verbesserungen an ChatGPT vorgestellt, die es ihm ermöglichen, nur mit der Stimme zu interagieren und auf Anfragen mit Bildern und Text zu antworten. Diese multimodale, bildfähige Version von GPT-4 wurde als "GPT-4V" betitelt.

Parallel dazu kündigte Meta die Einführung eines KI-Assistenten, mehrerer Prominente Chatbot-Persönlichkeiten für WhatsApp- und Instagram-Nutzer sowie eine Reihe anderer unauffälliger KI-Funktionen wie KI-Sticker. 

Die Leute manipulierten prompt Metas AI-Aufkleber zu generieren komische und schockierende cartoonartige Bilder, wie Karl Marx nackt oder Mario mit einem Sturmgewehr. 

Während der Wettlauf um die Kommerzialisierung von KI immer intensiver wird, erweisen sich die Sicherheitsvorkehrungen, mit denen das Verhalten von KI kontrolliert und verhindert werden soll, dass sie schädliche Inhalte oder Fehlinformationen erzeugt oder bei illegalen Aktivitäten hilft, als immer schwächer. 

Ist konstitutionelle KI die Antwort?

Um dem entgegenzuwirken, bemühen sich Unternehmen, die KI entwickeln, um "KI-Verfassungen" zu schaffen, d. h. eine Reihe grundlegender Prinzipien und Werte, an die sich KI-Modelle halten müssen. Das Startup Anthropisch war einer der ersten, der sich für eine "konstitutionelle KI" in einer 2022 Papier.

Google DeepMind hat für seinen Chatbot auch Verfassungsregeln aufgestellt Sperling im Jahr 2022 um "hilfreiche, korrekte und harmlose" Gespräche zu führen. 

Die KI-Verfassungen von Anthropic leiten Prinzipien aus verschiedenen Quellen ab, darunter die UN-Menschenrechtserklärung und die Allgemeinen Geschäftsbedingungen von Apple. Das Modell ist mit grundlegenden moralischen Prinzipien ausgestattet, die das Verhalten von unten nach oben steuern, anstatt von oben nach unten Leitplanken aufzuerlegen. 

Anstatt die KI mühsam mit zahllosen vom Menschen gelieferten Beispielen für richtig oder falsch zu trainieren, werden bei diesem Ansatz eine Reihe von Regeln oder Grundsätzen - eine "Verfassung" - festgelegt, an die sich die KI hält.

Zunächst wird die KI mit einer Situation konfrontiert, dann wird sie aufgefordert, ihre Reaktion zu kritisieren, und schließlich wird ihr Verhalten auf der Grundlage der überarbeiteten Lösung feinabgestimmt.

Anschließend geht das System in die Phase des verstärkten Lernens über. Hier misst es die Qualität seiner eigenen Antworten und unterscheidet die bessere. Mit der Zeit verfeinert diese Selbsteinschätzung sein Verhalten.

Der Clou ist, dass die KI ihre Rückkopplungsschleife nutzt, um die Belohnung in einer Methode zu bestimmen, die als "RL from AI Feedback" (RLAIF) bezeichnet wird. Wenn die KI mit potenziell schädlichen oder irreführenden Anfragen konfrontiert wird, weicht sie nicht einfach aus oder lehnt sie ab. Stattdessen spricht sie die Angelegenheit direkt an und erklärt, warum eine solche Anfrage problematisch sein könnte.

Es ist ein Schritt nach vorn bei der Entwicklung von Maschinen, die nicht nur rechnen, sondern auch strukturiert "denken".

Dario Amodei, CEO und Mitbegründer von Anthropic, betonte die Herausforderung, das Innenleben von KI-Modellen zu verstehen. Er schlägt vor, dass eine Verfassung die Regeln transparent und eindeutig machen würde, damit alle Nutzer wissen, was sie erwarten können. 

Wichtig ist auch, dass das Modell zur Rechenschaft gezogen werden kann, wenn es sich nicht an die dargelegten Grundsätze hält.

Trotz dieser Bemühungen sind die KI-Verfassungen nicht frei von eigenen Mängeln, und Modelle von Entwicklern wie Anthropic haben sich als anfällig für jailbreaks wie viele andere. 

Es gibt keine allgemein akzeptierten Wege zur Ausbildung sicherer und ethischer KI-Modelle

In der Vergangenheit wurden KI-Modelle mit der Methode des Verstärkungslernens durch menschliches Feedback (Reinforcement Learning by Human Feedback, RLHF) verfeinert, bei der die KI-Antworten von großen Teams menschlicher Bewerter als "gut" oder "schlecht" eingestuft werden. 

Diese Methode ist zwar bis zu einem gewissen Grad wirksam, wurde aber wegen ihrer mangelnden Genauigkeit und Spezifität kritisiert. Um die Ethik und Sicherheit der KI zu gewährleisten, erforschen die Unternehmen nun alternative Lösungen.

OpenAI hat beispielsweise den "Red-Teaming"-Ansatz gewählt, bei dem Experten aus verschiedenen Disziplinen eingestellt werden, um die Modelle zu testen und Schwachstellen zu identifizieren.

Das System von OpenAI arbeitet in Iterationen: Das KI-Modell erzeugt Ergebnisse, menschliche Gutachter bewerten und korrigieren diese Ergebnisse auf der Grundlage spezifischer Leitlinien, und das Modell lernt aus diesem Feedback. Die Trainingsdaten dieser Gutachter sind für die ethische Kalibrierung des Modells unerlässlich.

ChatGPT entscheidet sich bei kontroversen oder sensiblen Themen oft für eine konservative Antwort und vermeidet manchmal eine direkte Antwort. Dies steht im Gegensatz zur konstitutionellen KI, bei der das Modell seine Vorbehalte bei potenziell schädlichen Fragen deutlich machen sollte, indem es aktiv seine Argumentation auf der Grundlage seiner grundlegenden Regeln demonstriert.

Während ChatGPT sich bei seiner ethischen Orientierung stark auf menschliches Feedback stützt, verwendet die konstitutionelle KI einen regelbasierten Rahmen mit Mechanismen zur Selbstüberprüfung und einem Schwerpunkt auf transparenter Argumentation.

Letztendlich gibt es wahrscheinlich kein Patentrezept für die Entwicklung einer "sicheren" KI - und einige, wie Elon Musk, kritisieren die Idee einer "wachen" KI. Studien haben bewiesen dass selbst konstitutionelle KIs manipuliert werden können, um sie zu unvorhersehbarem Verhalten zu veranlassen. 

Rebecca Johnson, Forscherin für KI-Ethik an der Universität Sydney, wies darauf hin, dass KI-Ingenieure und Informatiker Probleme oft mit dem Ziel angehen, endgültige Lösungen zu finden, was der Komplexität der menschlichen Natur nicht immer gerecht wird. 

"Wir müssen anfangen, generative KI als Erweiterung des Menschen zu betrachten, sie ist nur ein weiterer Aspekt der Menschheit", sagte sie. 

Eine umfassende Kontrolle der KI als eine Art einfaches technisches System wird nur noch härter, je weiter sie sich entwickeltund das Gleiche gilt für biologische Organismen wie uns selbst.

Divergenzen, ob provoziert oder nicht, sind vielleicht unvermeidlich.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen