Forscher des Meaning Alignment Institute haben einen neuen Ansatz, Moral Graph Elicitation (MGE), vorgeschlagen, um KI-Systeme mit menschlichen Werten in Einklang zu bringen.
Da KI immer fortschrittlicher wird und in unser tägliches Leben integriert wird, ist es von größter Bedeutung, dass sie allen Menschen dient und sie fair repräsentiert. Doch tseine Studie argumentiert, dass die Ausrichtung der KI auf die Ziele des Nutzers allein noch keine Sicherheit garantiert.
"KI-Systeme werden in Kontexten eingesetzt werden, in denen das blinde Befolgen der Absicht des Betreibers als Nebenprodukt Schaden anrichten kann. Dies zeigt sich am deutlichsten in Umgebungen mit Wettbewerbsdynamik, wie politischen Kampagnen oder der Verwaltung von Finanzanlagen", so die Forscher.
Der Grund dafür ist, dass KI-Modelle so konzipiert sind, dass sie dem Benutzer dienen. Wenn der Nutzer einem Modell Anweisungen für ruchlose Zwecke erteilt, könnte das Modell in seinem Bestreben, dem Nutzer zu dienen, die Leitplanken umgehen und gehorchen.
Eine Lösung besteht darin, die KI mit einer Reihe von Werten zu "imprägnieren", die sie jedes Mal abfragt, wenn sie dazu aufgefordert wird.
Die Frage ist: Woher kommen diese Werte? Und können sie die Menschen gleichberechtigt vertreten?
"Was sind menschliche Werte und wie können wir uns an ihnen orientieren?"
Wir freuen uns sehr über die Veröffentlichung unseres neuen Papiers zur Werteausrichtung, das wir gemeinsam mit folgenden Autoren verfasst haben @ryan_t_lowe und finanziert von @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29. März 2024
Um diese Probleme zu lösen, schlugen die Forscher vor, die KI mit einer tieferen Darstellung der menschlichen Werte durch MGE abzustimmen.
Die MGE-Methode besteht aus zwei Hauptkomponenten: den Wertekarten und dem Moraldiagramm.
Diese bilden ein Ausrichtungsziel für das Training von Modellen des maschinellen Lernens.
- Werte-Karten erfassen, was für eine Person in einer bestimmten Situation wichtig ist. Sie bestehen aus "konstitutiven Aufmerksamkeitsstrategien" (CAPs), d. h. den Dingen, auf die eine Person achtet, wenn sie eine sinnvolle Entscheidung trifft. Wenn man beispielsweise einen Freund berät, kann man sich darauf konzentrieren, seine Emotionen zu verstehen, hilfreiche Ressourcen vorzuschlagen oder die möglichen Folgen verschiedener Entscheidungen zu bedenken.
- Der moralische Graph stellt die Beziehungen zwischen den Wertekarten visuell dar und gibt an, welche Werte in einem bestimmten Kontext aufschlussreicher oder anwendbar sind. Um das Moraldiagramm zu erstellen, vergleichen die Teilnehmer verschiedene Wertekarten und entscheiden, welche ihrer Meinung nach in einer bestimmten Situation eine klügere Orientierung bieten. Auf diese Weise wird die kollektive Weisheit der Teilnehmer genutzt, um die stärksten und am meisten anerkannten Werte für jeden Kontext zu ermitteln.
Um die MGE-Methode zu testen, führten die Forscher eine Studie mit 500 Amerikanern durch, die das Verfahren nutzten, um drei kontroverse Themen zu erforschen: Abtreibung, Elternschaft und die bei den Unruhen im Kapitol am 6. Januar verwendeten Waffen.
Die Ergebnisse waren vielversprechend: 89,1% der Teilnehmer fühlten sich durch den Prozess gut repräsentiert und 89% hielten das endgültige Moraldiagramm für fair, auch wenn ihr Wert nicht als der klügste gewählt wurde.
In der Studie werden auch sechs Kriterien genannt, die ein Abgleichsziel erfüllen muss, um das Modellverhalten nach menschlichen Werten zu gestalten: Es sollte feinkörnig, verallgemeinerbar, skalierbar, robust, legitim und überprüfbar sein. Die Forscher argumentieren, dass der von MGE erstellte moralische Graph diese Kriterien gut erfüllt.
In dieser Studie wird ein ähnlicher Ansatz wie der von Anthropic vorgeschlagen Kollektive verfassungsmäßige AI, die ebenfalls Werte für die KI-Ausrichtung sammelt.
Der Autor der Studie, Joe Edelman, sagte jedoch auf X: "Unser Ansatz, MGE, übertrifft Alternativen wie CCAI von @anthropic bei der Legitimität in einer Fallstudie und bietet Robustheit gegenüber ideologischer Rhetorik. 89% stimmen sogar zu, dass die siegreichen Werte fair waren, auch wenn ihr eigener Wert nicht gewonnen hat!"
Unser Ansatz, MGE, übertrifft Alternativen wie CCAI um @anthropic zur Legitimität in einer Fallstudie und bietet Robustheit gegenüber ideologischer Rhetorik.
89% stimmen sogar zu, dass die Gewinnwerte fair waren, auch wenn ihr eigener Wert nicht gewonnen hat! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29. März 2024
Beschränkungen
KI-Anpassungsansätze, bei denen Werte von der Öffentlichkeit eingeholt werden, haben ihre Grenzen.
So sind beispielsweise abweichende Meinungen seit Jahrhunderten fester Bestandteil der gesellschaftlichen Entscheidungsfindung, und die Geschichte hat gezeigt, dass die Mehrheit die abweichenden Standpunkte der Minderheit oft übernehmen kann. Beispiele hierfür sind Darwins Evolutionstheorie und die Kämpfe um die Abschaffung der Sklaverei und das Frauenwahlrecht.
Darüber hinaus ist die direkte Beteiligung der Öffentlichkeit zwar demokratisch, kann aber auch zu Populismus führen, da sich die Mehrheit über Minderheitenmeinungen hinwegsetzen oder den Rat von Experten ignorieren könnte.
Eine weitere Herausforderung ist der Ausgleich zwischen globalen oder universalistischen und lokalen oder relativistischen kulturellen Werten. Weithin akzeptierte Grundsätze in einer Kultur oder Region können in einer anderen umstritten sein.
KI-Verfassungen könnten westliche Werte stärken und so die Ansichten und Ideen der Menschen an der Peripherie untergraben.
Diese neue Studie räumt zwar Einschränkungen und die Notwendigkeit weiterer Entwicklungen ein, bietet aber eine weitere Strategie für die Entwicklung von KI-Systemen, die mit menschlichen Werten in Einklang stehen.
Jeder Versuch zählt, wenn die zentrale KI in Zukunft allen gerecht werden soll.