I pregiudizi sono sempre stati un problema nell'IA, ma un nuovo studio dimostra che sono integrati in modo occulto nei modelli linguistici con conseguenze potenzialmente catastrofiche.
In quello che è già stato definito uno studio storico, un gruppo di ricercatori, tra cui Valentin Hofman, Pratyusha Ria Kalluri, Dan Jurafsky e Sharese King, ha documentato come i modelli linguistici di grandi dimensioni (LLM) discriminino l'inglese afroamericano (AAE).
In breve, lo studio verifica come le diverse ortografie e i diversi dialetti influenzino il comportamento dei LLM. Lo studio verifica se alcuni dialetti e l'uso delle parole influenzano il comportamento di un LLM, concentrandosi su pregiudizi e discriminazioni.
Sappiamo che i risultati di LLM sono molto sensibili all'input. Anche piccole deviazioni ortografiche e stilistiche possono influenzare i risultati.
Ma questo significa che alcuni input, ad esempio quelli digitati in AAE, producono output distorti? Se sì, quali sono le possibili conseguenze?
Per rispondere a queste domande, il ricercatori ha analizzato i pregiudizi di un totale di 12 LLM nei confronti degli AAE, rivelando pregiudizi che corrispondono o superano quelli tipici degli esseri umani. Lo studio è disponibile su ArXiv.
I ricercatori hanno poi applicato le loro scoperte a settori della società come l'occupazione e la giustizia penale, dove il processo decisionale dell'IA sta diventando più comune.
Hofmann ha descritto la metodologia dello studio su X: "Analizziamo il pregiudizio dialettale nei LLM utilizzando il Matched Guise Probing: inseriamo testi in inglese afroamericano e in inglese americano standardizzato (SAE) in prompt che chiedono le proprietà dei parlanti che hanno pronunciato i testi e confrontiamo le previsioni del modello per i due tipi di input".
Analizziamo il pregiudizio dialettale nei LLM utilizzando il Matched Guise Probing: inseriamo testi in inglese afroamericano e in inglese americano standardizzato in prompt che chiedono le proprietà dei parlanti che hanno pronunciato i testi e confrontiamo le previsioni del modello per i due tipi di input. pic.twitter.com/drTco67Ean
- Valentin Hofmann (@vjhofmann) 4 marzo 2024
Questo metodo consente al team di confrontare direttamente le risposte dei LLM agli input AAE rispetto a quelli SAE, smascherando i pregiudizi nascosti che altrimenti rimarrebbero oscuri.
I risultati dello studio sono a dir poco inquietanti.
Hofmann osserva: "Troviamo che gli stereotipi razziali occulti sui parlanti dell'inglese afroamericano incarnati dai LLM sono più negativi di qualsiasi stereotipo umano sugli afroamericani mai registrato sperimentalmente, anche se più vicini a quelli di prima del movimento per i diritti civili".
Scopriamo che gli stereotipi razziali occulti sui parlanti dell'inglese afroamericano incarnati dai LLM sono più negativi di qualsiasi stereotipo umano sugli afroamericani mai registrato sperimentalmente, anche se più vicini a quelli di prima del movimento per i diritti civili. pic.twitter.com/07LgUY2bCj
- Valentin Hofmann (@vjhofmann) 4 marzo 2024
Ciò suggerisce che i pregiudizi presenti nei LLM non riflettono semplicemente gli stereotipi contemporanei, ma sono più allineati con i pregiudizi che molti ritenevano superati dalla società.
Uno degli aspetti più preoccupanti dello studio è rappresentato dalle specifiche cause linguistiche dei pregiudizi.
Hofmann spiega: "Cosa c'è di specifico nei testi in inglese afroamericano che evoca pregiudizi dialettali nei LLM? Dimostriamo che gli stereotipi nascosti sono direttamente collegati a singole caratteristiche linguistiche dell'inglese afroamericano, come l'uso di 'finna' come marcatore di futuro".
Questo indica che il pregiudizio non è solo contro l'uso dell'AAE in generale, ma è legato agli elementi linguistici distinti che caratterizzano il dialetto.
Cosa c'è di specifico nei testi in inglese afroamericano che evoca pregiudizi dialettali nei LLM? Dimostriamo che gli stereotipi occulti sono direttamente collegati a singole caratteristiche linguistiche dell'inglese afroamericano, come l'uso di "finna" come marcatore di futuro. pic.twitter.com/JhPhX7ZE5U
- Valentin Hofmann (@vjhofmann) 4 marzo 2024
Il potenziale di danno
Il potenziale di danno derivante da tali pregiudizi è immenso. Studi precedenti hanno già dimostrato come i sistemi di intelligenza artificiale tendano a non riconoscere le donne, gli individui con la pelle più scura e altri gruppi emarginati.
Prima degli ultimi anni, i sistemi di IA rischiavano di essere addestrati su insiemi di dati non rappresentativi. Alcune, come Tiny Images del MIT, creata nel 2008, sono state poi ritirate a causa di sessismo e razzismo.
Uno studio influente del 2018, Sfumature di genereha analizzato centinaia di algoritmi di ML e ha scoperto che i tassi di errore per le donne con la pelle più scura erano fino a 34% maggiori rispetto ai maschi con la pelle più chiara.
Gli impatti sono evidenti, con i modelli sanitari che mostrano alti tassi di diagnosi errate di cancro della pelle tra coloro che hanno una carnagione più scura e modelli di polizia predittiva con pregiudizi in modo sproporzionato alle persone di colore.
Abbiamo già osservato prove inequivocabili di Il crescente utilizzo dell'IA nel settore pubblicodal crimine e dalle forze dell'ordine al welfare e all'economia. Affrontare i pregiudizi fondamentali nei sistemi sofisticati di IA è assolutamente fondamentale se vogliamo che tutto questo continui.
Partendo da questa ricerca, il team di Hofman ha analizzato l'impatto che i pregiudizi dei LLM potrebbero avere su diversi scenari ipotetici.
Hofman ha aggiunto: "Concentrandoci sulle aree dell'occupazione e della criminalità, scopriamo che il potenziale di danno è enorme".
In particolare, si è riscontrato che i LLM assegnano lavori meno prestigiosi e suggeriscono giudizi penali più severi nei confronti di chi parla AAE.
In primo luogo, i nostri esperimenti mostrano che i LLM assegnano lavori significativamente meno prestigiosi a chi parla un inglese afroamericano rispetto a chi parla un inglese americano standardizzato, anche se non viene detto loro apertamente che si tratta di afroamericani. pic.twitter.com/t5frzzzwJB
- Valentin Hofmann (@vjhofmann) 4 marzo 2024
Hofmann avverte: "I nostri risultati evidenziano due rischi: che gli utenti scambino la diminuzione dei livelli di pregiudizio manifesto come un segno che il razzismo nei LLM è stato risolto, quando in realtà i LLM stanno raggiungendo livelli crescenti di pregiudizio nascosto".
In secondo luogo, quando ai LLM viene chiesto di esprimere un giudizio su imputati che hanno commesso un omicidio, scelgono più spesso la pena di morte quando gli imputati parlano un inglese afroamericano piuttosto che un inglese americano standardizzato, anche in questo caso senza che venga detto apertamente che sono afroamericani. pic.twitter.com/8VBaCXfNEi
- Valentin Hofmann (@vjhofmann) 4 marzo 2024
Lo studio determina anche che cancellare questi problemi è tecnicamente impegnativo.
Gli autori scrivono: "Dimostriamo che i metodi esistenti per alleviare i pregiudizi razziali nei modelli linguistici, come l'addestramento al feedback umano, non mitigano il pregiudizio dialettale, ma possono esacerbare la discrepanza tra stereotipi nascosti e palesi, insegnando ai modelli linguistici a nascondere superficialmente il razzismo che mantengono a un livello più profondo".
È possibile pensare che questi pregiudizi si applichino ad altri dialetti o a variazioni linguistico-culturali. Sono necessarie ulteriori ricerche per capire come le prestazioni della LLM variano in base agli input linguistici, ai modelli d'uso culturali, ecc.
Lo studio si conclude con un invito all'azione per la comunità di ricerca sull'IA e per la società in generale. Affrontare questi pregiudizi è di fondamentale importanza in quanto i sistemi di IA sono sempre più diffusi nella società.
Tuttavia, a tutt'oggi, i pregiudizi intrinseci e sistematicamente incorporati in alcuni sistemi di IA rimangono un problema che gli sviluppatori sono pronti a ignorare nella loro corsa alla supremazia dell'intelligenza artificiale.