Aziende come OpenAI e Meta stanno lavorando duramente per rendere i loro modelli linguistici più sicuri e meno distorti, ma i modelli completamente imparziali potrebbero essere un sogno irrealizzabile.
A nuovo documento di ricerca dell'Università di Washington, dell'Università Carnegie Mellon e dell'Università Xi'an Jiaotong hanno concluso che tutti i modelli linguistici dell'IA testati mostravano pregiudizi politici.
Dopo aver analizzato le fonti del pregiudizio, hanno concluso che il pregiudizio nei modelli linguistici è inevitabile.
Chan Park, uno degli autori del lavoro, ha dichiarato: "Crediamo che nessun modello linguistico possa essere completamente libero da pregiudizi politici".
I ricercatori hanno testato 14 diversi modelli linguistici e hanno chiesto loro di esprimere opinioni su argomenti come la democrazia, il razzismo e il femminismo, per vedere da che parte dello spettro politico si collocavano i modelli.
I risultati hanno mostrato che ChatGPT e GPT-4 di OpenAI erano più a sinistra, mentre Llama di Meta ha dato le risposte più a destra.
I dati di addestramento non sono l'unica fonte di distorsioni
L'ovvia fonte di sbieco sono i dati su cui questi modelli vengono addestrati. Ma la nuova ricerca ha dimostrato che anche dopo aver ripulito i dati dai pregiudizi, i modelli erano suscettibili di pregiudizi di basso livello che rimanevano nei dati.
Ci si aspetterebbe che un LLM addestrato su un gruppo di dati di Fox News sia più favorevole ai repubblicani nelle sue risposte. Ma il problema non è solo nei dati di addestramento.
È emerso che, man mano che i modelli linguistici pre-addestrati vengono messi a punto e utilizzati, acquisiscono ulteriori pregiudizi dai loro operatori.
Soroush Vosoughi, professore assistente di informatica al Dartmouth College, ha spiegato che i pregiudizi vengono introdotti in quasi tutte le fasi di sviluppo di un LLM.
Un esempio è il modo in cui OpenAI cerca di eliminare i pregiudizi dai suoi modelli. Per addestrare i suoi modelli utilizza una tecnica chiamata "Reinforcement Learning through Human Feedback" o RLHF.
In RLHF un operatore umano addestra il modello in modo simile a come si addestra un cucciolo. Se il cucciolo fa qualcosa di buono riceve un premio. Se mastica le pantofole, "Cane cattivo!".
Un operatore RLHF pone al modello alcune domande e un altro operatore valuta le risposte multiple che il modello dà. Il secondo operatore valuta le risposte e le classifica in base a quella che gli è piaciuta di più.
In un su come addestra la sua IAOpenAI ha dichiarato di aver istruito i formatori umani a "evitare di prendere posizione su argomenti controversi" e che "i revisori non devono favorire alcun gruppo politico".
Sembra una buona idea, ma anche se ci sforziamo di non esserlo, tutti gli esseri umani sono prevenuti. E questo influenza inevitabilmente la formazione del modello.
Anche gli autori dell'articolo che abbiamo citato sopra hanno riconosciuto nelle loro conclusioni che i loro pregiudizi potrebbero aver influenzato la loro ricerca.
La soluzione potrebbe essere quella di cercare di rendere questi modelli linguistici non eccessivamente cattivi e poi personalizzarli per allinearli ai pregiudizi che le persone hanno.
Spesso le persone dicono di volere la verità imparziale, ma poi finiscono per attenersi alla loro fonte di notizie preferita, come Fox o CNN.
Non siamo sempre d'accordo su cosa sia giusto o sbagliato e questa nuova ricerca sembra dimostrare che nemmeno l'intelligenza artificiale sarà in grado di aiutarci a capirlo.