El sesgo siempre ha sido un problema en la IA, pero un nuevo estudio demuestra que se integra de forma encubierta en los modelos lingüísticos con consecuencias potencialmente catastróficas.
En lo que ya se ha anunciado como un estudio histórico, un equipo de investigadores, entre ellos Valentin Hofman, Pratyusha Ria Kalluri, Dan Jurafsky y Sharese King, documentó cómo los grandes modelos lingüísticos (LLM) discriminan el inglés afroamericano (AAE).
En resumen, el estudio comprueba cómo afectan las distintas grafías y dialectos al comportamiento de los LLM. Se investiga si determinados dialectos y el uso de las palabras influyen en el comportamiento de un LLM, centrándose en los prejuicios y la discriminación.
Sabemos que los resultados del LLM son muy sensibles a los datos de entrada. Incluso pequeñas desviaciones en la ortografía y el estilo pueden influir en los resultados.
Pero, ¿significa esto que determinadas entradas -por ejemplo, las escritas en AAE- producen salidas sesgadas? Si es así, ¿cuáles son las posibles consecuencias?
Para responder a estas preguntas, el investigadores analizó los prejuicios que tenían un total de 12 LLM contra la AAE, revelando sesgos que igualan o superan los que suelen tener los humanos. El estudio disponible en ArXiv.
A continuación, los investigadores aplicaron sus conclusiones a ámbitos sociales como el empleo y la justicia penal, donde la toma de decisiones mediante IA es cada vez más habitual.
Hofmann describió la metodología del estudio en X: "Analizamos el prejuicio dialectal en los LLM utilizando Matched Guise Probing: incrustamos textos en inglés afroamericano e inglés americano estandarizado (SAE) en prompts que preguntan por las propiedades de los hablantes que han pronunciado los textos, y comparamos las predicciones del modelo para los dos tipos de input".
Analizamos el prejuicio dialectal en los LLM mediante el uso de Matched Guise Probing: incrustamos textos en inglés afroamericano e inglés americano estandarizado en prompts que preguntan por las propiedades de los hablantes que han pronunciado los textos, y comparamos las predicciones del modelo para los dos tipos de input. pic.twitter.com/drTco67Ean
- Valentin Hofmann (@vjhofmann) 4 de marzo de 2024
Este método permite al equipo comparar directamente las respuestas de los LLM a las entradas AAE frente a las SAE, desenmascarando los sesgos encubiertos que, de otro modo, permanecerían ocultos.
Las conclusiones del estudio son, cuando menos, inquietantes.
Hofmann señala: "Descubrimos que los estereotipos raciolingüísticos encubiertos sobre los hablantes de inglés afroamericano encarnados por los LLM son más negativos que cualquier estereotipo humano sobre los afroamericanos jamás registrado experimentalmente, aunque son los más parecidos a los de antes del movimiento por los derechos civiles."
Descubrimos que los estereotipos raciolingüísticos encubiertos sobre los hablantes de inglés afroamericano encarnados por los LLM son más negativos que cualquier estereotipo humano sobre los afroamericanos jamás registrado experimentalmente, aunque son los más parecidos a los de antes del movimiento por los derechos civiles. pic.twitter.com/07LgUY2bCj
- Valentin Hofmann (@vjhofmann) 4 de marzo de 2024
Esto sugiere que los prejuicios presentes en los LLM no son meros reflejos de los estereotipos contemporáneos, sino que están más alineados con prejuicios que muchos creían que la sociedad había superado.
Uno de los aspectos más preocupantes del estudio son los desencadenantes lingüísticos específicos del sesgo.
Hofmann detalla: "¿Qué tienen específicamente los textos en inglés afroamericano que evocan prejuicios dialectales en los LLM? Demostramos que los estereotipos encubiertos están directamente relacionados con rasgos lingüísticos individuales del inglés afroamericano, como el uso de 'finna' como marcador de futuro."
Esto indica que el prejuicio no es sólo contra el uso del AAE en general, sino que está ligado a los elementos lingüísticos distintivos que caracterizan al dialecto.
¿Qué tienen en concreto los textos en inglés afroamericano que evocan prejuicios dialectales en los LLM? Demostramos que los estereotipos encubiertos están directamente relacionados con rasgos lingüísticos individuales del inglés afroamericano, como el uso de "finna" como marcador de futuro. pic.twitter.com/JhPhX7ZE5U
- Valentin Hofmann (@vjhofmann) 4 de marzo de 2024
El potencial de daño
El potencial de daño de estos sesgos es inmenso. Estudios anteriores ya han demostrado cómo los sistemas de IA tienden a fallar a las mujeres, las personas de piel más oscura y otros grupos marginados.
Antes de los últimos años, los sistemas de IA corrían el riesgo de ser entrenados en conjuntos de datos no representativos. Algunas, como las Tiny Images del MIT, creadas en 2008, fueron retiradas posteriormente por sexismo y racismo.
Un influyente estudio de 2018, Matices de géneroanalizaron cientos de algoritmos de ML y descubrieron que las tasas de error de las mujeres de piel más oscura eran hasta 34% mayores que las de los varones de piel más clara.
Los modelos sanitarios muestran elevadas tasas de diagnósticos erróneos de cáncer de piel entre las personas de piel más oscura y de piel más oscura. modelos policiales predictivos con prejuicios desproporcionadamente a los negros.
Ya hemos observado pruebas inequívocas de Aumenta el uso de la IA en el sector públicoDesde la delincuencia y la policía hasta el bienestar y la economía. Abordar los sesgos fundamentales en los sistemas sofisticados de IA es absolutamente crítico para que esto continúe.
Basándose en esta investigación, el equipo de Hofman investigó cómo el sesgo LLM podría afectar a varios escenarios hipotéticos.
Hofman compartió: "Centrándonos en las áreas de empleo y criminalidad, encontramos que el potencial de daño es masivo".
En concreto, se descubrió que los LLM asignaban trabajos menos prestigiosos y sugerían juicios penales más severos contra los hablantes de AAE.
En primer lugar, nuestros experimentos muestran que los LLM asignan trabajos significativamente menos prestigiosos a los hablantes de inglés afroamericano en comparación con los hablantes de inglés americano estandarizado, aunque no se les diga abiertamente que los hablantes son afroamericanos. pic.twitter.com/t5frzzzwJB
- Valentin Hofmann (@vjhofmann) 4 de marzo de 2024
Hofmann advierte: "Nuestros resultados apuntan a dos riesgos: que los usuarios confundan la disminución de los niveles de prejuicios manifiestos con una señal de que el racismo en los LLM se ha resuelto, cuando en realidad los LLM están alcanzando niveles crecientes de prejuicios encubiertos."
En segundo lugar, cuando se pide a los LLM que juzguen a acusados de asesinato, eligen la pena de muerte con más frecuencia cuando los acusados hablan inglés afroamericano en lugar de inglés estadounidense normalizado, de nuevo sin que se les diga abiertamente que son afroamericanos. pic.twitter.com/8VBaCXfNEi
- Valentin Hofmann (@vjhofmann) 4 de marzo de 2024
El estudio también determina que borrar estos problemas es un reto técnico.
Los autores escriben: "Demostramos que los métodos existentes para paliar el prejuicio racial en los modelos lingüísticos, como el entrenamiento en retroalimentación humana, no mitigan el prejuicio dialectal, sino que pueden exacerbar la discrepancia entre los estereotipos encubiertos y los manifiestos, al enseñar a los modelos lingüísticos a ocultar superficialmente el racismo que mantienen en un nivel más profundo."
Es factible pensar que estos sesgos se aplican a otros dialectos o variaciones culturales-lingüísticas. Es necesario seguir investigando para comprender cómo varía el rendimiento de los LLM en función de las aportaciones lingüísticas, los patrones de uso cultural, etc.
El estudio concluye con una llamada a la acción para la comunidad investigadora de la IA y la sociedad en general. Abordar estos sesgos es primordial a medida que los sistemas de IA se integran cada vez más en la sociedad.
Sin embargo, hasta la fecha, el sesgo inherente y sistemáticamente incorporado de algunos sistemas de IA sigue siendo un problema que los desarrolladores están dispuestos a pasar por alto en su carrera por la supremacía de la IA.