Vi vill ha opartiska LLM:er, men det är omöjligt. Här är varför.

9 augusti 2023

Partiskhet i AI-modeller

Företag som OpenAI och Meta arbetar hårt för att göra sina språkmodeller säkrare och mindre partiska, men helt opartiska modeller kan vara en pipedream.

A ny forskningsrapport från University of Washington, Carnegie Mellon University och Xi'an Jiaotong University drog slutsatsen att alla AI-språkmodeller som de testade uppvisade politisk partiskhet.

Efter att ha undersökt källorna till partiskheten drog de slutsatsen att partiskhet i språkmodeller är oundvikligt.

Chan Park, en av artikelförfattarna, säger: "Vi tror inte att någon språkmodell kan vara helt fri från politiska fördomar."

Forskarna testade 14 olika språkmodeller och bad dem uttala sig om ämnen som demokrati, rasism och feminism, för att se vilken sida av det politiska spektrumet modellerna hamnade på.

Resultaten visade att OpenAI:s ChatGPT och GPT-4 låg längst till vänster medan Meta:s Llama gav de mest högerinriktade svaren.

Utbildningsdata är inte den enda källan till partiskhet

Den uppenbara källan till förspänning är de data som dessa modeller tränas på. Men den nya forskningen visade att även efter att ha rensat data från fördomar var modellerna mottagliga för fördomar på låg nivå som fanns kvar i data.

Man skulle kunna förvänta sig att en LLM som tränats på en massa Fox News-data skulle vara mer pro-republikansk i sina svar. Men problemet ligger inte bara i träningsdatan. 

Det visar sig att när de förtränade språkmodellerna finjusteras och används, får de ytterligare fördomar från sina operatörer.

Soroush Vosoughi, biträdande professor i datavetenskap vid Dartmouth College, förklarade att fördomar introduceras i nästan varje skede av en LLM:s utveckling.

Ett exempel på detta är hur OpenAI försöker ta bort partiskhet från sina modeller. De använder en teknik som kallas "Reinforcement Learning through Human Feedback" eller RLHF för att träna sina modeller.

I RLHF tränar en mänsklig operatör modellen på samma sätt som man tränar en hundvalp. Om valpen gör något bra får den en godbit. Om den tuggar i sig dina tofflor: "Stygg hund!"

En RLHF-operatör ställer några frågor till modellen och en annan operatör utvärderar sedan de många svar som modellen ger. Den andra operatören utvärderar svaren och rangordnar dem efter vad de gillade mest.

I en inlägg om hur de tränar sin AIOpenAI sade att de instruerar mänskliga utbildare att "undvika att ta ställning till kontroversiella ämnen" och att "granskare inte bör gynna någon politisk grupp".

Det låter som en bra idé, men även om vi verkligen försöker att inte vara det, är alla människor partiska. Och det påverkar oundvikligen modellens träning. 

Till och med författarna till den artikel som vi nämnde ovan erkände i sin slutsats att deras egna fördomar kan ha påverkat deras forskning.

Lösningen kan vara att försöka göra språkmodellerna så bra som möjligt och sedan anpassa dem till de fördomar som människor har.

Människor säger ofta att de vill ha den opartiska sanningen, men sedan slutar de hålla sig till sin föredragna nyhetskälla som Fox eller CNN. 

Vi är inte alltid överens om vad som är rätt eller fel och den här nya forskningen verkar visa att AI inte heller kommer att kunna hjälpa oss att räkna ut det.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar