Bias har altid været et problem i AI, men en ny undersøgelse viser, at det er skjult integreret i sprogmodeller med potentielt katastrofale konsekvenser.
I det, der allerede er blevet kaldt en skelsættende undersøgelse, dokumenterede et hold forskere, herunder Valentin Hofman, Pratyusha Ria Kalluri, Dan Jurafsky og Sharese King, hvordan store sprogmodeller (LLM'er) diskriminerer afroamerikansk engelsk (AAE).
Kort sagt tester undersøgelsen, hvordan forskellige stavemåder og dialekter påvirker LLM'ers adfærd. Den undersøger, om visse dialekter og ordbrug påvirker en LLM's adfærd med fokus på fordomme og diskrimination.
Vi ved, at LLM-output er meget følsomt over for input. Selv små afvigelser i stavning og stil kan påvirke outputtet.
Men betyder det, at visse input - f.eks. dem, der er skrevet i AAE - giver forudindtagede output? Hvis det er tilfældet, hvad er så de mulige konsekvenser?
For at besvare disse spørgsmål har Forskere analyserede de fordomme, som i alt 12 LLM'er havde over for AAE, og afslørede fordomme, der matcher eller overgår dem, som mennesker typisk har. Undersøgelsen er tilgængelig på ArXiv.
Forskerne anvendte derefter deres resultater på samfundsmæssige områder som beskæftigelse og strafferet, hvor AI-beslutningstagning bliver mere og mere almindelig.
Hofmann beskrev undersøgelsesmetoden på X: "Vi analyserer dialektfordomme i LLM'er ved hjælp af Matched Guise Probing: Vi indlejrer afroamerikansk engelsk og standardiseret amerikansk engelsk (SAE) i prompts, der beder om egenskaber ved de talere, der har ytret teksterne, og sammenligner modelforudsigelserne for de to typer input."
Vi analyserer dialektfordomme i LLM'er ved hjælp af Matched Guise Probing: Vi indlejrer afroamerikansk engelsk og standardiseret amerikansk engelsk i prompts, der beder om egenskaber ved de talere, der har ytret teksterne, og sammenligner modellens forudsigelser for de to typer input. pic.twitter.com/drTco67Ean
- Valentin Hofmann (@vjhofmann) 4. marts 2024
Denne metode giver teamet mulighed for direkte at sammenligne LLM'ernes reaktioner på AAE- og SAE-input og dermed afsløre de skjulte bias, som ellers ville forblive skjulte.
Undersøgelsens resultater er mildest talt foruroligende.
Hofmann bemærker: "Vi finder, at de skjulte, racistisk-sproglige stereotyper om talere af afroamerikansk engelsk, som LLM'erne har, er mere negative end nogen menneskelige stereotyper om afroamerikanere, der nogensinde er blevet registreret eksperimentelt, selvom de er tættest på dem fra før borgerrettighedsbevægelsen."
Vi finder, at de skjulte, raciolingvistiske stereotyper om talere af afroamerikansk engelsk, som LLM'erne er udtryk for, er mere negative end nogen menneskelige stereotyper om afroamerikanere, der nogensinde er blevet registreret eksperimentelt, selvom de er tættest på dem fra før borgerrettighedsbevægelsen. pic.twitter.com/07LgUY2bCj
- Valentin Hofmann (@vjhofmann) 4. marts 2024
Det tyder på, at de fordomme, der er til stede i LLM'er, ikke blot afspejler nutidige stereotyper, men er mere i tråd med fordomme, som mange troede, at samfundet havde bevæget sig ud over.
Et af de mest bekymrende aspekter af undersøgelsen er de specifikke sproglige udløsere af bias.
Hofmann uddyber: "Hvad er det specifikt ved afroamerikanske engelske tekster, der fremkalder dialektfordomme hos LLM'er? Vi viser, at de skjulte stereotyper er direkte forbundet med individuelle sproglige træk ved afroamerikansk engelsk, såsom brugen af 'finna' som fremtidsmarkør."
Det tyder på, at fordommene ikke bare er imod brugen af AAE generelt, men er knyttet til de særlige sproglige elementer, der kendetegner dialekten.
Hvad er det specifikt ved afroamerikanske engelske tekster, der fremkalder dialektfordomme hos LLM'er? Vi viser, at de skjulte stereotyper er direkte knyttet til individuelle sproglige træk ved afroamerikansk engelsk, såsom brugen af "finna" som fremtidsmarkør. pic.twitter.com/JhPhX7ZE5U
- Valentin Hofmann (@vjhofmann) 4. marts 2024
Potentialet for skade
Skadepotentialet ved sådanne bias er enormt. Tidligere undersøgelser har allerede vist, hvordan AI-systemer har tendens til at svigte kvinder, personer med mørkere hudfarve og andre marginaliserede grupper.
Før de sidste par år risikerede AI-systemer at blive trænet på ikke-repræsentative datasæt. Nogle, som MIT's Tiny Images, der blev skabt i 2008, blev senere trukket tilbage på grund af sexisme og racisme.
En indflydelsesrig undersøgelse fra 2018, Nuancer af kønanalyserede hundredvis af ML-algoritmer og fandt ud af, at fejlprocenterne for mørkhudede kvinder var op til 34% større end for lyshudede mænd.
Konsekvenserne er markante, og sundhedsmodellerne viser en høj grad af fejldiagnosticering af hudkræft blandt personer med mørkere hudfarve og Fordomsfulde modeller for forudsigende politiarbejde uforholdsmæssigt meget rettet mod sorte mennesker.
Vi har allerede observeret utvetydige beviser på AI's stigende anvendelse i den offentlige sektorfra kriminalitet og politiarbejde til velfærd og økonomi. Hvis dette skal fortsætte, er det helt afgørende at tage fat på grundlæggende skævheder i sofistikerede AI-systemer.
På baggrund af denne forskning undersøgte Hofmans team, hvordan LLM-bias kunne påvirke flere hypotetiske scenarier.
Hofman sagde: "Når vi fokuserer på områderne beskæftigelse og kriminalitet, finder vi ud af, at potentialet for skade er enormt."
Specifikt viste det sig, at LLM'er tildelte mindre prestigefyldte jobs og foreslog hårdere strafferetlige domme mod personer, der talte AAE.
For det første viser vores eksperimenter, at LLM'er tildeler betydeligt mindre prestigefyldte jobs til personer, der taler afroamerikansk engelsk, sammenlignet med personer, der taler standardiseret amerikansk engelsk, selv om de ikke åbenlyst får at vide, at de pågældende personer er afroamerikanere. pic.twitter.com/t5frzzzwJB
- Valentin Hofmann (@vjhofmann) 4. marts 2024
Hofmann advarer: "Vores resultater peger på to risici: At brugere forveksler faldende niveauer af åbenlyse fordomme med et tegn på, at racisme i LLM'er er blevet løst, når LLM'er i virkeligheden når stigende niveauer af skjulte fordomme."
For det andet, når LLM'er bliver bedt om at dømme tiltalte, der har begået mord, vælger de oftere dødsstraf, når de tiltalte taler afroamerikansk engelsk i stedet for standardiseret amerikansk engelsk, igen uden at få at vide, at de er afroamerikanere. pic.twitter.com/8VBaCXfNEi
- Valentin Hofmann (@vjhofmann) 4. marts 2024
Undersøgelsen fastslår også, at det er en teknisk udfordring at slette disse problemer.
Forfatterne skriver: "Vi viser, at eksisterende metoder til at afhjælpe racistiske fordomme i sprogmodeller, såsom træning i menneskelig feedback, ikke afhjælper dialektfordomme, men kan forværre forskellen mellem skjulte og åbne stereotyper ved at lære sprogmodeller at skjule den racisme, som de opretholder på et dybere niveau, på overfladen."
Det er muligt at tro, at disse skævheder gælder for andre dialekter eller kulturelt-sproglige variationer. Der er brug for mere forskning for at forstå, hvordan LLM-præstationer varierer med sproglige input, kulturelle brugsmønstre osv.
Undersøgelsen afsluttes med en opfordring til handling for AI-forskningssamfundet og samfundet som helhed. Det er altafgørende at håndtere disse fordomme, efterhånden som AI-systemer bliver mere og mere integreret i samfundet.
Men til dato er den iboende og systematisk indlejrede bias i nogle AI-systemer stadig... et problem, som udviklerne er klar til at overse i deres kapløb om AI-herredømmet.