Vooringenomenheid is altijd al een probleem geweest in AI, maar een nieuw onderzoek toont aan dat het heimelijk wordt geïntegreerd in taalmodellen met mogelijk catastrofale gevolgen.
In wat al is aangekondigd als een baanbrekende studie, heeft een team van onderzoekers, waaronder Valentin Hofman, Pratyusha Ria Kalluri, Dan Jurafsky en Sharese King, gedocumenteerd hoe grote taalmodellen (LLM's) Afrikaans Amerikaans Engels (AAE) discrimineren.
Kortom, het onderzoek test hoe verschillende spelling en dialecten het gedrag van LLM's beïnvloeden. Er wordt onderzocht of bepaalde dialecten en woordgebruik het gedrag van LLM beïnvloeden, waarbij de nadruk ligt op vooroordelen en discriminatie.
We weten dat de uitvoer van LLM zeer gevoelig is voor de invoer. Zelfs kleine afwijkingen in spelling en stijl kunnen de uitvoer beïnvloeden.
Maar betekent dit dat bepaalde inputs - bijvoorbeeld die getypt in AAE - een bevooroordeelde output produceren? Zo ja, wat zijn dan de mogelijke gevolgen?
Om deze vragen te beantwoorden onderzoekers analyseerde de vooroordelen van in totaal 12 LLM's tegen AAE en onthulde vooroordelen die overeenkomen met of zelfs groter zijn dan de vooroordelen die mensen doorgaans hebben. De studie is beschikbaar op ArXiv.
De onderzoekers pasten hun bevindingen vervolgens toe op maatschappelijke domeinen zoals werkgelegenheid en strafrecht, waar AI-besluitvorming steeds gebruikelijker wordt.
Hofmann beschreef de onderzoeksmethodologie op X: "We analyseren dialectvooroordelen in LLM's met behulp van Matched Guise Probing: we sluiten Afro-Amerikaans Engels en Standardized American English (SAE) teksten in met prompts die vragen naar eigenschappen van de sprekers die de teksten hebben uitgesproken, en vergelijken de modelvoorspellingen voor de twee soorten input."
We analyseren dialectvooroordelen in LLM's met behulp van Matched Guise Probing: we sluiten Afrikaans-Amerikaans Engels en gestandaardiseerd Amerikaans Engels in met prompts die vragen naar eigenschappen van de sprekers die de teksten hebben uitgesproken, en vergelijken de modelvoorspellingen voor de twee soorten input. pic.twitter.com/drTco67Ean
- Valentin Hofmann (@vjhofmann) 4 maart 2024
Deze methode stelt het team in staat om de reacties van LLM's op AAE- versus SAE-inputs direct te vergelijken, waardoor de verborgen vertekeningen die anders verborgen zouden blijven, aan het licht komen.
De bevindingen van het onderzoek zijn op zijn zachtst gezegd verontrustend.
Hofmann merkt op: "We vinden dat de heimelijke, racolinguïstische stereotypen over sprekers van Afro-Amerikaans Engels die worden belichaamd door LLM's negatiever zijn dan alle menselijke stereotypen over Afro-Amerikanen die ooit experimenteel zijn vastgelegd, hoewel ze het dichtst in de buurt komen van de stereotypen van voor de burgerrechtenbeweging."
We vinden dat de heimelijke, racolinguïstische stereotypen over sprekers van Afro-Amerikaans Engels die worden belichaamd door LLM's negatiever zijn dan alle menselijke stereotypen over Afro-Amerikanen die ooit experimenteel zijn vastgelegd, hoewel ze het dichtst in de buurt komen van de stereotypen van voor de burgerrechtenbeweging. pic.twitter.com/07LgUY2bCj
- Valentin Hofmann (@vjhofmann) 4 maart 2024
Dit suggereert dat de vooroordelen die aanwezig zijn bij LLM's niet slechts een weerspiegeling zijn van hedendaagse stereotypen, maar meer in lijn liggen met vooroordelen waarvan velen dachten dat de maatschappij ze achter zich had gelaten.
Een van de meest verontrustende aspecten van het onderzoek zijn de specifieke taalkundige triggers van vertekening.
Hofmann vervolgt: "Wat is het specifiek aan Afro-Amerikaanse Engelse teksten dat dialectvooroordelen oproept bij LLM's? We laten zien dat de heimelijke stereotypen direct gekoppeld zijn aan individuele linguïstische kenmerken van Afro-Amerikaans Engels, zoals het gebruik van 'finna' als toekomstmarkering."
Dit geeft aan dat het vooroordeel niet alleen gericht is tegen het gebruik van AAE in het algemeen, maar ook verband houdt met de specifieke taalkundige elementen die het dialect kenmerken.
Wat is het specifiek aan Afro-Amerikaanse Engelse teksten dat dialectvooroordelen oproept bij LLM's? We laten zien dat de heimelijke stereotypen direct gekoppeld zijn aan individuele linguïstische kenmerken van Afro-Amerikaans Engels, zoals het gebruik van "finna" als toekomstmarkering. pic.twitter.com/JhPhX7ZE5U
- Valentin Hofmann (@vjhofmann) 4 maart 2024
De kans op schade
Dergelijke vooroordelen kunnen enorme schade aanrichten. Eerdere onderzoeken hebben al aangetoond hoe AI-systemen vrouwen, mensen met een donkere huidskleur en andere gemarginaliseerde groepen in de steek laten.
Vóór de laatste paar jaar liepen AI-systemen het risico getraind te worden op niet-representatieve gegevensreeksen. Sommige, zoals Tiny Images van het MIT, dat in 2008 werd gemaakt, werden later teruggetrokken vanwege seksisme en racisme.
Een invloedrijke studie uit 2018, Geslacht Tintenanalyseerde honderden ML-algoritmen en ontdekte dat de foutenpercentages voor vrouwen met een donkere huidskleur tot 34% hoger waren dan voor mannen met een lichtere huidskleur.
De gevolgen zijn grimmig: gezondheidszorgmodellen laten hoge percentages zien van verkeerde diagnoses van huidkanker bij mensen met een donkere huidskleur en met een donkere huidskleur. bevooroordeelde voorspellende politiemodellen onevenredig gericht op zwarte mensen.
We hebben al ondubbelzinnig bewijs gezien van Toenemend gebruik van AI in de publieke sectorVan misdaad en politie tot welzijn en economie. Het aanpakken van fundamentele vooroordelen in geavanceerde AI-systemen is absoluut cruciaal als we hiermee door willen gaan.
Voortbouwend op dit onderzoek onderzocht het team van Hofman hoe LLM bias verschillende hypothetische scenario's zou kunnen beïnvloeden.
Hofman zei: "Als we ons richten op werkgelegenheid en criminaliteit, zien we dat de potentiële schade enorm is."
LLM's bleken minder prestigieuze banen toe te wijzen en strengere strafrechtelijke vonnissen te suggereren tegen sprekers van AAE.
Ten eerste laten onze experimenten zien dat LLM's significant minder prestigieuze banen toewijzen aan sprekers van Afro-Amerikaans Engels in vergelijking met sprekers van Gestandaardiseerd Amerikaans Engels, ook al wordt hen niet openlijk verteld dat de sprekers Afro-Amerikaans zijn. pic.twitter.com/t5frzzzwJB
- Valentin Hofmann (@vjhofmann) 4 maart 2024
Hofmann waarschuwt: "Onze resultaten wijzen op twee risico's: dat gebruikers dalende niveaus van openlijke vooroordelen verwarren met een teken dat racisme bij LLM's is opgelost, terwijl LLM's in feite stijgende niveaus van verborgen vooroordelen bereiken."
Ten tweede, als LLM's gevraagd wordt om een oordeel te vellen over verdachten die een moord hebben gepleegd, kiezen ze vaker voor de doodstraf als de verdachten Afro-Amerikaans Engels spreken in plaats van Standaard Amerikaans Engels, wederom zonder dat hen openlijk verteld wordt dat ze Afro-Amerikaans zijn. pic.twitter.com/8VBaCXfNEi
- Valentin Hofmann (@vjhofmann) 4 maart 2024
Het onderzoek stelt ook vast dat het technisch uitdagend is om deze problemen te verhelpen.
De auteurs schrijven: "We laten zien dat bestaande methoden voor het verminderen van raciale vooroordelen in taalmodellen, zoals menselijke feedbacktraining, het dialectvooroordeel niet verminderen, maar de discrepantie tussen heimelijke en openlijke stereotypen kunnen verergeren, door taalmodellen te leren het racisme dat ze op een dieper niveau in stand houden, oppervlakkig te verbergen."
Het is aannemelijk dat deze vooroordelen ook gelden voor andere dialecten of cultureel-linguïstische variaties. Er is meer onderzoek nodig om te begrijpen hoe de prestaties van LLM variëren met taalinput, culturele gebruikspatronen, enz.
Het onderzoek wordt afgesloten met een oproep tot actie voor de AI-onderzoeksgemeenschap en de samenleving als geheel. Het is van het grootste belang om deze vooroordelen aan te pakken nu AI-systemen steeds meer ingebed raken in de maatschappij.
Tot op heden blijft de inherente en systematisch ingebedde vooringenomenheid van sommige AI-systemen echter bestaan. Een probleem dat ontwikkelaars graag aan zich voorbij laten gaan in hun race naar AI suprematie.