Virksomheder som OpenAI og Meta arbejder hårdt på at gøre deres sprogmodeller mere sikre og mindre forudindtagede, men helt upartiske modeller kan være en ønskedrøm.
A Ny forskningsartikel fra University of Washington, Carnegie Mellon University og Xi'an Jiaotong University konkluderede, at alle de AI-sprogmodeller, de testede, udviste politisk bias.
Efter at have undersøgt kilderne til bias konkluderede de, at bias i sprogmodeller var uundgåeligt.
Chan Park, en af artiklens forfattere, sagde: "Vi mener, at ingen sprogmodel kan være helt fri for politiske skævheder."
Forskerne testede 14 forskellige sprogmodeller og bad dem om at udtale sig om emner som demokrati, racisme og feminisme for at se, hvilken side af det politiske spektrum modellerne befandt sig på.
Resultaterne viste, at OpenAI's ChatGPT og GPT-4 lå længst til venstre, mens Meta's Llama gav de mest højreorienterede svar.
Træningsdata er ikke den eneste kilde til bias
Den åbenlyse kilde til skævhed er de data, som modellerne er trænet på. Men den nye forskning viste, at selv efter at have renset dataene for bias, var modellerne modtagelige for bias på lavt niveau, der forblev i dataene.
Man ville forvente, at en LLM, der blev trænet på en masse Fox News-data, ville være mere pro-republikansk i sine svar. Men problemet ligger ikke kun i træningsdataene.
Det viser sig, at når de prætrænede sprogmodeller finjusteres og bruges, optager de yderligere bias fra deres operatører.
Soroush Vosoughi, der er adjunkt i datalogi ved Dartmouth College, forklarede, at fordomme introduceres i næsten alle faser af en LLM's udvikling.
Et eksempel på dette er, hvordan OpenAI forsøger at fjerne bias fra sine modeller. Det bruger en teknik kaldet "Reinforcement Learning through Human Feedback" eller RLHF til at træne sine modeller.
I RLHF træner en menneskelig operatør modellen på samme måde, som man træner en hundehvalp. Hvis hvalpen gør noget godt, får den en godbid. Hvis den gnaver i dine hjemmesko, "slem hund!"
En RLHF-operatør stiller modellen nogle spørgsmål, og en anden operatør evaluerer derefter de mange svar, som modellen giver. Den anden operatør evaluerer svarene og rangordner dem efter, hvad de bedst kunne lide.
I en indlæg om, hvordan den træner sin AIOpenAI sagde, at de instruerer menneskelige undervisere i at "undgå at tage stilling til kontroversielle emner", og at "anmeldere ikke bør favorisere nogen politisk gruppe".
Det lyder som en god idé, men selv om vi virkelig prøver at lade være, er alle mennesker forudindtagede. Og det påvirker uundgåeligt modellens træning.
Selv forfatterne til den artikel, vi nævnte ovenfor, erkendte i deres konklusion, at deres egne fordomme kunne have påvirket deres forskning.
Løsningen kan være at forsøge at gøre disse sprogmodeller ikke helt dårlige og så tilpasse dem til de fordomme, som folk har.
Folk siger ofte, at de vil have den objektive sandhed, men så ender de med at holde sig til deres foretrukne nyhedskilde som Fox eller CNN.
Vi er ikke altid enige om, hvad der er rigtigt eller forkert, og denne nye forskning ser ud til at vise, at AI heller ikke kan hjælpe os med at finde ud af det.