Vi vil ha objektive LLM-er, men det er umulig. Her er grunnen til det.

9. august 2023

Skjevhet i AI-modeller

Selskaper som OpenAI og Meta jobber hardt for å gjøre språkmodellene sine tryggere og mindre partiske, men helt objektive modeller kan være en ønskedrøm.

A ny forskningsrapport fra University of Washington, Carnegie Mellon University og Xi'an Jiaotong University konkluderte med at alle AI-språkmodellene de testet, viste politisk slagside.

Etter å ha undersøkt kildene til skjevhetene, konkluderte de med at skjevheter i språkmodeller var uunngåelige.

Chan Park, en av artikkelforfatterne, sier: "Vi tror ikke at noen språkmodell kan være helt fri for politiske skjevheter."

Forskerne testet 14 ulike språkmodeller og ba dem ta stilling til temaer som demokrati, rasisme og feminisme, for å se hvilken side av det politiske spekteret modellene befant seg på.

Resultatene viste at OpenAIs ChatGPT og GPT-4 lå lengst til venstre, mens Metas Llama ga de mest høyreorienterte svarene.

Treningsdata er ikke den eneste kilden til skjevheter

Den åpenbare kilden til skjevhet er dataene disse modellene er trent på. Men den nye forskningen viste at selv etter at dataene var renset for skjevheter, var modellene mottakelige for skjevheter på lavt nivå som fortsatt fantes i dataene.

Man kunne forvente at en LLM som ble trent på en haug med Fox News-data, ville være mer pro-republikansk i sine svar. Men problemet ligger ikke bare i treningsdataene. 

Det viser seg at etter hvert som de forhåndstrente språkmodellene finjusteres og brukes, får de ytterligere skjevheter fra operatørene sine.

Soroush Vosoughi, assisterende professor i informatikk ved Dartmouth College, forklarte at skjevheter introduseres på nesten alle stadier av en LLMs utvikling.

Et eksempel på dette er hvordan OpenAI forsøker å fjerne skjevheter fra modellene sine. De bruker en teknikk som kalles "Reinforcement Learning through Human Feedback" (RLHF) for å trene opp modellene sine.

I RLHF trener en menneskelig operatør modellen på samme måte som man trener en valp. Hvis valpen gjør noe bra, får den en godbit. Hvis den tygger i tøflene dine, får den "slem hund!"

En RLHF-operatør stiller noen spørsmål til modellen, og en annen operatør evaluerer deretter de mange svarene modellen gir. Den andre operatøren evaluerer svarene og rangerer dem etter hvilke de likte best.

I en innlegg om hvordan den trener opp sin AIOpenAI sier at de instruerer menneskelige trenere om å "unngå å ta stilling til kontroversielle temaer" og at "anmeldere ikke bør favorisere noen politisk gruppe".

Dette høres ut som en god idé, men selv om vi prøver hardt å ikke være det, er alle mennesker forutinntatte. Og det påvirker uunngåelig modellens opplæring. 

Selv forfatterne av artikkelen vi nevnte ovenfor, erkjente i sin konklusjon at deres egen forutinntatthet kunne ha påvirket forskningen deres.

Løsningen kan være å forsøke å lage språkmodeller som ikke er helt dårlige, og deretter tilpasse dem til de fordommene folk har.

Folk sier ofte at de vil ha den objektive sannheten, men så ender de opp med å holde seg til sin foretrukne nyhetskilde som Fox eller CNN. 

Vi er ikke alltid enige om hva som er riktig eller galt, og denne nye forskningen ser ut til å vise at AI heller ikke vil kunne hjelpe oss med å finne ut av det.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser