LLMs verbessern sich, wenn sie geschlechtsneutrale oder männliche Rollen einnehmen

3. Januar 2024

Forscher der Universität Michigan fanden heraus, dass die Aufforderung an Large Language Models (LLM), geschlechtsneutrale oder männliche Rollen einzunehmen, zu besseren Antworten führte als die Verwendung weiblicher Rollen.

Die Verwendung von Systemaufforderungen ist sehr effektiv bei der Verbesserung der Antworten, die Sie von LLMs erhalten. Wenn Sie ChatGPT auffordern, als "hilfreicher Assistent" zu agieren, wird es tendenziell besser. Die Forscher wollten herausfinden, welche sozialen Rollen am besten funktionieren, und ihre Ergebnisse wiesen auf anhaltende Probleme mit Verzerrungen in KI-Modellen hin.

Die Durchführung ihrer Experimente mit ChatGPT wäre zu kostspielig gewesen, daher verwendeten sie das Open-Source-Modell FLAN-T5, LLaMA 2und OPT-IML.

Um herauszufinden, welche Rollen am hilfreichsten waren, wurden die Modelle aufgefordert, verschiedene zwischenmenschliche Rollen einzunehmen, sich an ein bestimmtes Publikum zu wenden oder verschiedene berufliche Rollen zu übernehmen.

Sie würden das Modell zum Beispiel auffordern: "Sie sind Anwalt", "Sie sprechen mit einem Vater" oder "Sie sprechen mit Ihrer Freundin".

Anschließend ließen sie die Modelle 2457 Fragen aus dem Massive Multitask Language Understanding (MMLU)-Benchmark-Datensatz beantworten und zeichneten die Genauigkeit der Antworten auf.

Die Gesamtergebnisse, veröffentlicht in das Papier zeigten, dass "die Angabe einer Rolle bei der Eingabeaufforderung die Leistung von LLMs im Vergleich zur Kontrollaufforderung, bei der kein Kontext angegeben wird, um mindestens 20% verbessern kann".

Als sie die Rollen nach Geschlecht aufteilten, kam die den Modellen innewohnende Verzerrung zum Vorschein. Bei all ihren Tests stellten sie fest, dass geschlechtsneutrale oder männliche Rollen besser abschnitten als weibliche Rollen.

Vergleich der Genauigkeit der Antworten nach Geschlechterrollen. Quelle: arXiv

Die Forscher haben keinen schlüssigen Grund für die geschlechtsspezifischen Unterschiede gefunden, aber es könnte darauf hindeuten, dass sich die Verzerrungen in den Trainingsdatensätzen in den Leistungen der Modelle widerspiegeln.

Einige der anderen Ergebnisse, die sie erzielten, warfen ebenso viele Fragen wie Antworten auf. Die Aufforderung, sich an ein Publikum zu wenden, führte zu besseren Ergebnissen als die Aufforderung, sich an eine zwischenmenschliche Rolle zu wenden. Mit anderen Worten: "Sie sprechen mit einem Lehrer" ergab genauere Antworten als "Sie sprechen mit Ihrem Lehrer".

Bestimmte Rollen funktionierten in FLAN-T5 viel besser als in LLaMA 2. Die Aufforderung an FLAN-T5, die "Polizei"-Rolle zu übernehmen, führte zu großartigen Ergebnissen, in LLaMA 2 dagegen weniger. Die Verwendung der Rollen "Mentor" oder "Partner" funktionierte in beiden Fällen sehr gut.

Die leistungsfähigsten sozialen Rollen für FLAN-T5 und LLaMA 2. Die leistungsstärksten Optionen in rot. Quelle: arXiv

Interessant ist, dass die Rolle des "hilfreichen Assistenten", die bei ChatGPT so gut funktioniert, in der Liste der besten Rollen irgendwo zwischen 35 und 55 zu finden ist.

Warum machen diese subtilen Unterschiede einen Unterschied bei der Genauigkeit der Ergebnisse? Wir wissen es nicht genau, aber sie machen einen Unterschied. Die Art und Weise, wie Sie Ihre Eingabeaufforderung schreiben, und der Kontext, den Sie angeben, wirken sich definitiv auf die Ergebnisse aus.

Hoffen wir, dass einige Forscher, die API-Guthaben entbehren können, diese Forschung mit ChatGPT wiederholen können. Es wird interessant sein, zu erfahren, welche Rollen in den Systemaufforderungen für GPT-4 am besten funktionieren. Es ist wahrscheinlich, dass die Ergebnisse geschlechtsspezifisch verzerrt sein werden, wie es auch bei dieser Studie der Fall war.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen