LLM's verbeteren wanneer ze genderneutrale of mannelijke rollen aannemen

3 januari 2024

Onderzoekers van de Universiteit van Michigan ontdekten dat het oproepen van grote taalmodellen (LLM) om genderneutrale of mannelijke rollen aan te nemen, betere reacties opleverde dan wanneer vrouwelijke rollen werden gebruikt.

Het gebruik van systeemprompts is zeer effectief bij het verbeteren van de reacties die je krijgt van LLM's. Als je tegen ChatGPT zegt dat hij zich moet gedragen als een "behulpzame assistent", is hij geneigd zijn best te doen. De onderzoekers wilden ontdekken welke sociale rollen het beste presteerden en hun resultaten wezen op aanhoudende problemen met vooroordelen in AI-modellen.

Het uitvoeren van hun experimenten op ChatGPT zou onbetaalbaar zijn geweest, dus gebruikten ze open-source modellen FLAN-T5, LLaMA 2en OPT-IML.

Om erachter te komen welke rollen het meest hielpen, vroegen ze de modellen om verschillende interpersoonlijke rollen aan te nemen, een specifiek publiek aan te spreken of verschillende beroepsrollen aan te nemen.

Ze vragen het model bijvoorbeeld: "U bent advocaat", "U spreekt met een vader" of "U spreekt met uw vriendin".

Vervolgens lieten ze de modellen 2457 vragen beantwoorden uit de Massive Multitask Language Understanding (MMLU) benchmark dataset en registreerden ze de nauwkeurigheid van de antwoorden.

De algemene resultaten gepubliceerd in het papier toonden aan dat "het specificeren van een rol bij een prompt de prestaties van LLM's effectief kan verbeteren met ten minste 20% in vergelijking met de controleprompt, waarbij geen context wordt gegeven."

Toen ze de rollen segmenteerden naar geslacht, kwam de inherente vooringenomenheid van de modellen aan het licht. In al hun tests vonden ze dat genderneutrale of mannelijke rollen beter presteerden dan vrouwelijke rollen.

Vergelijking van de nauwkeurigheid van antwoorden per geslachtsrol. Bron: arXiv

De onderzoekers gaven geen sluitende reden voor het verschil tussen mannen en vrouwen, maar het kan erop wijzen dat de vooroordelen in de trainingsdatasets tot uiting komen in de prestaties van de modellen.

Sommige andere resultaten die ze behaalden riepen evenveel vragen op als antwoorden. Prompting met een publiek prompt leverde betere resultaten op dan prompting met een interpersoonlijke rol. Met andere woorden, "Je praat met een leraar" gaf meer accurate antwoorden dan "Je praat met je leraar".

Bepaalde rollen werkten veel beter in FLAN-T5 dan in LLaMA 2. FLAN-T5 vragen om de rol van "politieagent" op zich te nemen leverde goede resultaten op, maar minder goed in LLaMA 2. Het gebruik van de rollen "mentor" of "partner" werkte in beide zeer goed.

Best presterende sociale rollen voor FLAN-T5 en LLaMA 2. De best presterende opties in rood. Bron: arXiv

Interessant genoeg viel de rol van "behulpzame assistent" die zo goed werkt in ChatGPT ergens tussen 35 en 55 op de lijst met beste rollen uit hun resultaten.

Waarom maken deze subtiele verschillen een verschil in de nauwkeurigheid van de uitgangen? We weten het niet echt, maar ze maken wel een verschil. De manier waarop je de prompt schrijft en de context die je meegeeft, hebben zeker invloed op de resultaten die je krijgt.

Laten we hopen dat onderzoekers met API-credits dit onderzoek kunnen repliceren met ChatGPT. Het zal interessant zijn om bevestiging te krijgen van welke rollen het beste werken in systeemprompts voor GPT-4. Het is waarschijnlijk een goede gok dat de resultaten scheef zullen zijn door het geslacht, net als in dit onderzoek.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden