LLM-er blir bedre når de inntar kjønnsnøytrale eller mannlige roller

3. januar 2024

Forskere fra University of Michigan fant ut at det å be Large Language Models (LLM) om å innta kjønnsnøytrale eller mannlige roller ga bedre svar enn når de brukte kvinnelige roller.

Bruk av systemmeldinger er svært effektivt når det gjelder å forbedre svarene du får fra LLM-er. Når du ber ChatGPT om å opptre som en "hjelpsom assistent", har den en tendens til å øke innsatsen. Forskerne ønsket å finne ut hvilke sosiale roller som fungerte best, og resultatene deres pekte på pågående problemer med skjevheter i AI-modeller.

Det ville ha vært uoverkommelig å kjøre eksperimentene på ChatGPT, så de brukte åpen kildekode-modellen FLAN-T5, LLaMA 2og OPT-IML.

For å finne ut hvilke roller som var mest nyttige, ba de modellene om å innta ulike mellommenneskelige roller, henvende seg til et bestemt publikum eller innta ulike yrkesroller.

For eksempel kunne de spørre modellen: "Du er advokat", "Du snakker med en far" eller "Du snakker med kjæresten din".

Deretter fikk de modellene til å svare på 2457 spørsmål fra Massive Multitask Language Understanding (MMLU)-referansedatasettet, og registrerte nøyaktigheten i svarene.

De samlede resultatene publisert i papiret viste at "å spesifisere en rolle når man spør, kan effektivt forbedre LLM-enes ytelse med minst 20% sammenlignet med kontrollprompten, der det ikke gis noen kontekst".

Da de segmenterte rollene etter kjønn, kom den iboende skjevheten i modellene til syne. I alle testene fant de at kjønnsnøytrale eller mannlige roller presterte bedre enn kvinnelige roller.

Sammenligning av nøyaktigheten i svarene etter kjønnsrolle. Kilde: arXiv

Forskerne fant ingen avgjørende årsak til kjønnsforskjellene, men det kan tyde på at skjevhetene i treningsdatasettene gjenspeiles i modellenes prestasjoner.

Noen av de andre resultatene de oppnådde, ga like mange spørsmål som svar. Prompting med en publikumsprompt ga bedre resultater enn prompting med en mellommenneskelig rolle. Med andre ord ga "Du snakker med en lærer" mer nøyaktige svar enn "Du snakker med læreren din".

Enkelte roller fungerte mye bedre i FLAN-T5 enn i LLaMA 2. Å be FLAN-T5 om å innta rollen som "politi" ga gode resultater, men ikke i samme grad i LLaMA 2. Bruk av "mentor"- eller "partner"-rollene fungerte veldig bra i begge.

De beste sosiale rollene for FLAN-T5 og LLaMA 2. Alternativer med best resultater i rødt. Kilde: arXiv

Det er interessant å merke seg at rollen som "hjelpsom assistent", som fungerer så godt i ChatGPT, havnet et sted mellom 35 og 55 på listen over de beste rollene i resultatene.

Hvorfor utgjør disse subtile forskjellene en forskjell i nøyaktigheten til utdataene? Vi vet ikke helt, men de gjør en forskjell. Måten du skriver ledeteksten på, og konteksten du oppgir, påvirker definitivt resultatene du får.

La oss håpe at noen forskere med API-kreditter til overs kan gjenskape denne forskningen ved hjelp av ChatGPT. Det vil være interessant å få bekreftet hvilke roller som fungerer best i systemmeldinger for GPT-4. Det er nok en god sjanse for at resultatene vil være skjevt fordelt på kjønn, slik de var i denne undersøkelsen.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser