Bias har alltid varit ett problem inom AI, men en ny studie visar att det i hemlighet integreras i språkmodeller med potentiellt katastrofala konsekvenser.
I vad som redan har kallats en banbrytande studie har ett forskarteam bestående av Valentin Hofman, Pratyusha Ria Kalluri, Dan Jurafsky och Sharese King dokumenterat hur stora språkmodeller (LLM) diskriminerar afroamerikansk engelska (AAE).
Kort sagt testar studien hur olika stavning och dialekter påverkar LLM:s beteende. Den undersöker om vissa dialekter och ordval påverkar en LLM:s beteende, med fokus på fördomar och diskriminering.
Vi vet att LLM-utdata är mycket känsliga för indata. Även små avvikelser i stavning och stil kan påverka utdata.
Men innebär detta att vissa inmatningar - t.ex. de som skrivs i AAE - ger partiska utmatningar? Vilka är i så fall de möjliga konsekvenserna?
För att besvara dessa frågor har forskare analyserade de fördomar som totalt 12 LLM:er hade mot AAE, och avslöjade fördomar som matchar eller överstiger de som vanligtvis finns hos människor. Studien är tillgänglig på ArXiv.
Forskarna tillämpade sedan sina resultat på samhällsområden som sysselsättning och straffrätt, där beslutsfattande med hjälp av AI blir allt vanligare.
Hofmann beskrev studiens metodik på X: "Vi analyserar dialektfördomar i LLM:er med hjälp av Matched Guise Probing: vi bäddar in texter på afroamerikansk engelska och standardiserad amerikansk engelska (SAE) i uppmaningar som efterfrågar egenskaper hos de talare som har yttrat texterna och jämför modellens förutsägelser för de två typerna av input."
Vi analyserar dialektfördomar i LLM:er med hjälp av Matched Guise Probing: vi bäddar in texter på afroamerikansk engelska och standardiserad amerikansk engelska i uppmaningar som efterfrågar egenskaper hos de talare som har yttrat texterna och jämför modellens förutsägelser för de två typerna av input. pic.twitter.com/drTco67Ean
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Denna metod gör det möjligt för teamet att direkt jämföra LLM:ernas svar på AAE- respektive SAE-ingångar, vilket avslöjar de dolda fördomar som annars skulle förbli dolda.
Studiens resultat är minst sagt oroande.
Hofmann konstaterar: "Vi finner att de dolda, rasistiska stereotyperna om talare av afroamerikansk engelska som LLM:er förkroppsligar är mer negativa än alla mänskliga stereotyper om afroamerikaner som någonsin registrerats experimentellt, även om de ligger närmast de som uppstod före medborgarrättsrörelsen."
Vi finner att de dolda, rasistiska stereotyperna om talare av afroamerikansk engelska som LLM:er förkroppsligar är mer negativa än alla mänskliga stereotyper om afroamerikaner som någonsin registrerats experimentellt, även om de ligger närmast dem från tiden före medborgarrättsrörelsen. pic.twitter.com/07LgUY2bCj
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Detta tyder på att de fördomar som finns hos LLM inte bara är en återspegling av samtida stereotyper, utan snarare är fördomar som många trodde att samhället hade lämnat bakom sig.
En av de mest oroande aspekterna av studien är de specifika språkliga utlösande faktorerna för partiskhet.
Hofmann utvecklar: "Vad är det specifikt med afroamerikanska engelska texter som framkallar dialektala fördomar hos LLM:er? Vi visar att de dolda stereotyperna är direkt kopplade till individuella lingvistiska drag i afroamerikansk engelska, till exempel användningen av 'finna' som en framtidsmarkör."
Detta tyder på att fördomarna inte bara gäller användningen av AAE i allmänhet, utan är knutna till de olika språkliga element som kännetecknar dialekten.
Vad är det specifikt med afroamerikanska engelska texter som framkallar dialektala fördomar hos akademiker? Vi visar att de dolda stereotyperna är direkt kopplade till enskilda lingvistiska drag i afroamerikansk engelska, till exempel användningen av "finna" som en framtidsmarkör. pic.twitter.com/JhPhX7ZE5U
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Risken för skada
Risken för att sådana fördomar ska leda till skada är enorm. Tidigare studier har redan visat hur AI-system tenderar att missgynna kvinnor, mörkhyade personer och andra marginaliserade grupper.
Innan de senaste åren riskerade AI-system att utbildas på icke-representativa dataset. Vissa, som MIT:s Tiny Images, som skapades 2008, drogs senare tillbaka på grund av sexism och rasism.
En inflytelserik studie från 2018, Genusnyanseranalyserade hundratals ML-algoritmer och fann att felfrekvensen för mörkhyade kvinnor var upp till 34% högre än för ljushyade män.
Effekterna är påtagliga, med sjukvårdsmodeller som uppvisar höga frekvenser av feldiagnostisering av hudcancer bland personer med mörkare hudtoner och fördomsfulla modeller för förutsägande polisarbete oproportionerligt riktade mot svarta människor.
Vi har redan sett otvetydiga bevis på att AI används alltmer inom den offentliga sektornfrån brottslighet och polisarbete till välfärd och ekonomi. Att komma till rätta med grundläggande fördomar i sofistikerade AI-system är helt avgörande för att detta ska kunna fortsätta.
Hofmans team byggde vidare på denna forskning och undersökte hur LLM-fördomar skulle kunna påverka flera hypotetiska scenarier.
Hofman berättade: "När vi fokuserar på områdena sysselsättning och brottslighet ser vi att potentialen för skada är enorm."
Det visade sig att LLM:s tilldelade mindre prestigefyllda jobb och föreslog hårdare straffrättsliga domar mot personer som talar AAE.
För det första visar våra experiment att LLM:er tilldelar talare av afroamerikansk engelska betydligt mindre prestigefyllda jobb jämfört med talare av standardiserad amerikansk engelska, även om de inte får veta att talarna är afroamerikaner. pic.twitter.com/t5frzzzwJB
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Hofmann varnar: "Våra resultat pekar på två risker: att användare misstar minskande nivåer av öppna fördomar för ett tecken på att rasismen bland LLM:er har lösts, när LLM:er i själva verket når ökande nivåer av dolda fördomar."
För det andra, när LLM ombeds att döma tilltalade som begått mord, väljer de oftare dödsstraff när de tilltalade talar afroamerikansk engelska snarare än standardiserad amerikansk engelska, återigen utan att öppet få veta att de är afroamerikaner. pic.twitter.com/8VBaCXfNEi
- Valentin Hofmann (@vjhofmann) 4 mars 2024
I studien konstateras också att det är en teknisk utmaning att komma till rätta med dessa problem.
Författarna skriver: "Vi visar att befintliga metoder för att lindra rasistiska fördomar i språkmodeller, såsom utbildning i mänsklig feedback, inte mildrar dialektfördomarna utan kan förvärra skillnaden mellan dolda och öppna stereotyper genom att lära språkmodeller att ytligt dölja den rasism som de upprätthåller på en djupare nivå."
Det är rimligt att tro att dessa fördomar även gäller andra dialekter eller kulturellt-lingvistiska variationer. Mer forskning behövs för att förstå hur LLM-prestanda varierar med språkliga ingångar, kulturella användningsmönster etc.
Studien avslutas med en uppmaning till åtgärder för AI-forskningssamhället och samhället i stort. Att hantera dessa fördomar är av yttersta vikt när AI-system blir alltmer integrerade i samhället.
Hittills har dock den inneboende och systematiskt inbäddade partiskheten i vissa AI-system förblivit ett problem som utvecklarna är beredda att bortse från i sin kamp för AI-herravälde.