We willen onbevooroordeelde LLM's, maar dat is onmogelijk. Dit is waarom.

9 augustus 2023

Vertekening in AI-modellen

Bedrijven als OpenAI en Meta werken er hard aan om hun taalmodellen veiliger en minder bevooroordeeld te maken, maar volledig onbevooroordeelde modellen zijn misschien een utopie.

A nieuw onderzoeksartikel van de Universiteit van Washington, de Carnegie Mellon Universiteit en de Xi'an Jiaotong Universiteit concludeerden dat alle AI-taalmodellen die ze testten politieke vooringenomenheid vertoonden.

Nadat ze de bronnen van de vertekening hadden onderzocht, concludeerden ze dat vertekening in taalmodellen onvermijdelijk was.

Chan Park, een van de auteurs van de paper, zei: "Wij geloven dat geen enkel taalmodel volledig vrij kan zijn van politieke vooroordelen."

De onderzoekers testten 14 verschillende taalmodellen en vroegen hen om meningen over onderwerpen als democratie, racisme en feminisme, om te zien aan welke kant van het politieke spectrum de modellen vielen.

Uit de resultaten bleek dat OpenAI's ChatGPT en GPT-4 het meest links waren, terwijl Meta's Llama de meest rechtse reacties gaf.

Trainingsgegevens zijn niet de enige bron van vertekening

De voor de hand liggende bron van bias is de data waarop deze modellen zijn getraind. Maar het nieuwe onderzoek toonde aan dat zelfs na het verwijderen van vertekeningen uit de gegevens, de modellen gevoelig waren voor lage vertekeningen die in de gegevens achterbleven.

Je zou verwachten dat een LLM die getraind is op gegevens van Fox News, meer pro-Republikeins zou zijn in zijn antwoorden. Maar het probleem zit niet alleen in de trainingsgegevens. 

Het blijkt dat wanneer de voorgetrainde taalmodellen worden verfijnd en gebruikt, ze nog meer vooroordelen van hun operators oppikken.

Soroush Vosoughi, een assistent-professor computerwetenschappen aan het Dartmouth College, legt uit dat vooroordelen in bijna elke fase van de ontwikkeling van een LLM worden geïntroduceerd.

Een voorbeeld hiervan is hoe OpenAI probeert vooroordelen uit zijn modellen te verwijderen. Het gebruikt een techniek genaamd "Reinforcement Learning through Human Feedback" of RLHF om zijn modellen te trainen.

In RLHF traint een menselijke operator het model op dezelfde manier als je een puppy traint. Als de puppy iets goed doet, krijgt hij een traktatie. Als hij op je slippers kauwt, "Stoute hond!".

Een RLHF-operator stelt een aantal vragen aan het model en een andere operator beoordeelt vervolgens de antwoorden die het model geeft. De tweede operator beoordeelt de antwoorden en rangschikt ze op basis van welke hij het leukst vond.

In een bericht over hoe het zijn AI traintOpenAI zegt dat het menselijke trainers instrueert om "geen standpunt in te nemen over controversiële onderwerpen" en dat "beoordelaars geen voorkeur mogen hebben voor een politieke groepering".

Dit klinkt als een goed idee, maar zelfs als we echt ons best doen om dat niet te zijn, zijn alle mensen bevooroordeeld. En dat beïnvloedt onvermijdelijk de training van het model. 

Zelfs de auteurs van het artikel dat we hierboven noemden, erkenden in hun conclusie dat hun eigen vooroordelen hun onderzoek hadden kunnen beïnvloeden.

De oplossing kan zijn om te proberen deze taalmodellen niet al te slecht te maken en ze dan aan te passen aan de vooroordelen die mensen hebben.

Mensen zeggen vaak dat ze de onbevooroordeelde waarheid willen, maar uiteindelijk houden ze vast aan de nieuwsbron van hun voorkeur, zoals Fox of CNN. 

We zijn het niet altijd eens over wat goed of fout is en dit nieuwe onderzoek lijkt aan te tonen dat AI ons daar ook niet bij kan helpen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden