Wir wollen unvoreingenommene LLMs, aber das ist unmöglich. Hier ist der Grund.

9. August 2023

Verzerrungen in AI-Modellen

Unternehmen wie OpenAI und Meta arbeiten hart daran, ihre Sprachmodelle sicherer und weniger voreingenommen zu machen, aber völlig unvoreingenommene Modelle sind wohl noch Zukunftsmusik.

A neues Forschungspapier von der University of Washington, der Carnegie Mellon University und der Xi'an Jiaotong University kamen zu dem Schluss, dass alle von ihnen getesteten KI-Sprachmodelle eine politische Voreingenommenheit aufweisen.

Nachdem sie die Ursachen für die Verzerrungen untersucht hatten, kamen sie zu dem Schluss, dass Verzerrungen in Sprachmodellen unvermeidlich sind.

Chan Park, einer der Autoren der Studie, sagte: "Wir glauben, dass kein Sprachmodell völlig frei von politischen Vorurteilen sein kann."

Die Forscher testeten 14 verschiedene Sprachmodelle und baten sie um Meinungen zu Themen wie Demokratie, Rassismus und Feminismus, um zu sehen, auf welcher Seite des politischen Spektrums die Modelle stehen.

Die Ergebnisse zeigten, dass ChatGPT und GPT-4 von OpenAI am weitesten links standen, während Meta's Llama die am weitesten rechts stehenden Antworten gab.

Trainingsdaten sind nicht die einzige Quelle für Verzerrungen

Die offensichtliche Quelle von Vorspannung sind die Daten, auf denen diese Modelle trainiert werden. Die neue Untersuchung zeigte jedoch, dass die Modelle selbst nach der Bereinigung der Daten von Verzerrungen anfällig für geringfügige Verzerrungen waren, die in den Daten verblieben.

Man würde erwarten, dass ein LLM, das mit Daten von Fox News trainiert wurde, in seinen Antworten eher pro-republikanisch ist. Aber das Problem liegt nicht nur in den Trainingsdaten. 

Es stellt sich heraus, dass die vortrainierten Sprachmodelle bei der Feinabstimmung und Verwendung weitere Verzerrungen von ihren Operatoren übernehmen.

Soroush Vosoughi, Assistenzprofessor für Informatik am Dartmouth College, erklärte, dass Vorurteile in fast jeder Phase der Entwicklung eines LLMs eingeführt werden.

Ein Beispiel dafür ist, wie OpenAI versucht, Verzerrungen aus seinen Modellen zu entfernen. Es verwendet eine Technik namens "Reinforcement Learning through Human Feedback" (RLHF), um seine Modelle zu trainieren.

In RLHF trainiert ein menschlicher Bediener das Modell ähnlich wie einen Welpen. Wenn der Welpe etwas Gutes tut, bekommt er ein Leckerli. Wenn er an Ihren Hausschuhen kaut: "Böser Hund!"

Ein RLHF-Operator stellt dem Modell einige Fragen und ein anderer Operator wertet dann die verschiedenen Antworten des Modells aus. Der zweite Operator wertet die Antworten aus und ordnet sie danach, welche ihm am besten gefallen haben.

In einem Beitrag darüber, wie es seine KI trainiertOpenAI sagt, dass es menschliche Ausbilder anweist, "keine Stellung zu kontroversen Themen zu beziehen" und dass "Prüfer keine politische Gruppe bevorzugen sollten".

Das klingt nach einer guten Idee, aber auch wenn wir uns wirklich bemühen, nicht voreingenommen zu sein, sind alle Menschen voreingenommen. Und das beeinflusst unweigerlich die Ausbildung des Modells. 

Sogar die Autoren der oben erwähnten Arbeit haben in ihrer Schlussfolgerung eingeräumt, dass ihre eigenen Vorurteile ihre Forschung beeinflusst haben könnten.

Die Lösung könnte darin bestehen, dass man versucht, diese Sprachmodelle so zu gestalten, dass sie nicht ungeheuerlich schlecht sind, und sie dann so anpasst, dass sie mit den Vorurteilen der Menschen übereinstimmen.

Die Leute sagen oft, dass sie die unvoreingenommene Wahrheit wollen, aber dann bleiben sie doch bei ihrer bevorzugten Nachrichtenquelle wie Fox oder CNN. 

Wir sind uns nicht immer einig darüber, was richtig oder falsch ist, und diese neue Forschung scheint zu zeigen, dass die KI uns auch nicht dabei helfen kann, dies herauszufinden.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen