Neue Studie versucht, KI mit menschlichen Werten aus der Menge in Einklang zu bringen

1. April 2024

  • Forscher haben eine Methode entwickelt, um KI-Werte von menschlichen Teilnehmern abzuleiten
  • Damit wurde ein solides, faires und transparentes KI-System geschaffen, das den Menschen mit unterschiedlichen Ansichten dient.
  • Die Forscher argumentieren, dass ihr Ansatz bisherige Versuche, KI mit menschlichen Werten in Einklang zu bringen, übertrifft
AI-Werte

Forscher des Meaning Alignment Institute haben einen neuen Ansatz, Moral Graph Elicitation (MGE), vorgeschlagen, um KI-Systeme mit menschlichen Werten in Einklang zu bringen.

Da KI immer fortschrittlicher wird und in unser tägliches Leben integriert wird, ist es von größter Bedeutung, dass sie allen Menschen dient und sie fair repräsentiert. Doch tseine Studie argumentiert, dass die Ausrichtung der KI auf die Ziele des Nutzers allein noch keine Sicherheit garantiert.

 "KI-Systeme werden in Kontexten eingesetzt werden, in denen das blinde Befolgen der Absicht des Betreibers als Nebenprodukt Schaden anrichten kann. Dies zeigt sich am deutlichsten in Umgebungen mit Wettbewerbsdynamik, wie politischen Kampagnen oder der Verwaltung von Finanzanlagen", so die Forscher. 

Der Grund dafür ist, dass KI-Modelle so konzipiert sind, dass sie dem Benutzer dienen. Wenn der Nutzer einem Modell Anweisungen für ruchlose Zwecke erteilt, könnte das Modell in seinem Bestreben, dem Nutzer zu dienen, die Leitplanken umgehen und gehorchen.

Eine Lösung besteht darin, die KI mit einer Reihe von Werten zu "imprägnieren", die sie jedes Mal abfragt, wenn sie dazu aufgefordert wird.

Die Frage ist: Woher kommen diese Werte? Und können sie die Menschen gleichberechtigt vertreten?

Um diese Probleme zu lösen, schlugen die Forscher vor, die KI mit einer tieferen Darstellung der menschlichen Werte durch MGE abzustimmen.

Die MGE-Methode besteht aus zwei Hauptkomponenten: den Wertekarten und dem Moraldiagramm.

Diese bilden ein Ausrichtungsziel für das Training von Modellen des maschinellen Lernens.

  • Werte-Karten erfassen, was für eine Person in einer bestimmten Situation wichtig ist. Sie bestehen aus "konstitutiven Aufmerksamkeitsstrategien" (CAPs), d. h. den Dingen, auf die eine Person achtet, wenn sie eine sinnvolle Entscheidung trifft. Wenn man beispielsweise einen Freund berät, kann man sich darauf konzentrieren, seine Emotionen zu verstehen, hilfreiche Ressourcen vorzuschlagen oder die möglichen Folgen verschiedener Entscheidungen zu bedenken.
  • Der moralische Graph stellt die Beziehungen zwischen den Wertekarten visuell dar und gibt an, welche Werte in einem bestimmten Kontext aufschlussreicher oder anwendbar sind. Um das Moraldiagramm zu erstellen, vergleichen die Teilnehmer verschiedene Wertekarten und entscheiden, welche ihrer Meinung nach in einer bestimmten Situation eine klügere Orientierung bieten. Auf diese Weise wird die kollektive Weisheit der Teilnehmer genutzt, um die stärksten und am meisten anerkannten Werte für jeden Kontext zu ermitteln.

Um die MGE-Methode zu testen, führten die Forscher eine Studie mit 500 Amerikanern durch, die das Verfahren nutzten, um drei kontroverse Themen zu erforschen: Abtreibung, Elternschaft und die bei den Unruhen im Kapitol am 6. Januar verwendeten Waffen.

Die Ergebnisse waren vielversprechend: 89,1% der Teilnehmer fühlten sich durch den Prozess gut repräsentiert und 89% hielten das endgültige Moraldiagramm für fair, auch wenn ihr Wert nicht als der klügste gewählt wurde.

In der Studie werden auch sechs Kriterien genannt, die ein Abgleichsziel erfüllen muss, um das Modellverhalten nach menschlichen Werten zu gestalten: Es sollte feinkörnig, verallgemeinerbar, skalierbar, robust, legitim und überprüfbar sein. Die Forscher argumentieren, dass der von MGE erstellte moralische Graph diese Kriterien gut erfüllt.

In dieser Studie wird ein ähnlicher Ansatz wie der von Anthropic vorgeschlagen Kollektive verfassungsmäßige AI, die ebenfalls Werte für die KI-Ausrichtung sammelt.

Der Autor der Studie, Joe Edelman, sagte jedoch auf X: "Unser Ansatz, MGE, übertrifft Alternativen wie CCAI von @anthropic bei der Legitimität in einer Fallstudie und bietet Robustheit gegenüber ideologischer Rhetorik. 89% stimmen sogar zu, dass die siegreichen Werte fair waren, auch wenn ihr eigener Wert nicht gewonnen hat!"

Beschränkungen

KI-Anpassungsansätze, bei denen Werte von der Öffentlichkeit eingeholt werden, haben ihre Grenzen.

So sind beispielsweise abweichende Meinungen seit Jahrhunderten fester Bestandteil der gesellschaftlichen Entscheidungsfindung, und die Geschichte hat gezeigt, dass die Mehrheit die abweichenden Standpunkte der Minderheit oft übernehmen kann. Beispiele hierfür sind Darwins Evolutionstheorie und die Kämpfe um die Abschaffung der Sklaverei und das Frauenwahlrecht.

Darüber hinaus ist die direkte Beteiligung der Öffentlichkeit zwar demokratisch, kann aber auch zu Populismus führen, da sich die Mehrheit über Minderheitenmeinungen hinwegsetzen oder den Rat von Experten ignorieren könnte.

Eine weitere Herausforderung ist der Ausgleich zwischen globalen oder universalistischen und lokalen oder relativistischen kulturellen Werten. Weithin akzeptierte Grundsätze in einer Kultur oder Region können in einer anderen umstritten sein.

KI-Verfassungen könnten westliche Werte stärken und so die Ansichten und Ideen der Menschen an der Peripherie untergraben.

Diese neue Studie räumt zwar Einschränkungen und die Notwendigkeit weiterer Entwicklungen ein, bietet aber eine weitere Strategie für die Entwicklung von KI-Systemen, die mit menschlichen Werten in Einklang stehen.

Jeder Versuch zählt, wenn die zentrale KI in Zukunft allen gerecht werden soll. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen