Empresas como OpenAI y Meta están trabajando duro para que sus modelos lingüísticos sean más seguros y menos sesgados, pero los modelos completamente imparciales pueden ser una quimera.
A nuevo trabajo de investigación de la Universidad de Washington, la Universidad Carnegie Mellon y la Universidad Xi'an Jiaotong concluyeron que todos los modelos lingüísticos de IA que probaron mostraban sesgos políticos.
Tras profundizar en las fuentes del sesgo, llegaron a la conclusión de que el sesgo en los modelos lingüísticos era inevitable.
Chan Park, uno de los autores del trabajo, dijo: "Creemos que ningún modelo lingüístico puede estar totalmente libre de sesgos políticos".
Los investigadores probaron 14 modelos lingüísticos diferentes y les pidieron opiniones sobre temas como la democracia, el racismo y el feminismo, para ver en qué lado del espectro político se situaban los modelos.
Los resultados mostraron que ChatGPT y GPT-4 de OpenAI se situaban más a la izquierda, mientras que Llama de Meta daba las respuestas más a la derecha.
Los datos de entrenamiento no son la única fuente de sesgo
La fuente obvia de sesgo son los datos con los que se entrenan estos modelos. Pero la nueva investigación demostró que, incluso después de depurar los datos de sesgos, los modelos eran susceptibles a sesgos de bajo nivel que permanecían en los datos.
Cabría esperar que un LLM entrenado con un montón de datos de Fox News fuera más pro-republicano en sus respuestas. Pero el problema no está solo en los datos de entrenamiento.
Resulta que a medida que los modelos lingüísticos preentrenados se van afinando y utilizando, recogen más sesgos de sus operadores.
Soroush Vosoughi, profesor adjunto de informática en el Dartmouth College, explicó que los prejuicios se introducen en casi todas las etapas del desarrollo de un LLM.
Un ejemplo de ello es la forma en que OpenAI intenta eliminar los sesgos de sus modelos. Utiliza una técnica llamada "Aprendizaje por refuerzo a través de la retroalimentación humana" o RLHF (Reinforcement Learning through Human Feedback) para entrenar sus modelos.
En RLHF, un operador humano entrena al modelo de forma similar a como se entrena a un cachorro. Si el cachorro hace algo bien, recibe un premio. Si muerde tus zapatillas, "¡Perro malo!".
Un operador de RLHF hace algunas preguntas a la modelo y otro operador evalúa las múltiples respuestas que da la modelo. El segundo operador evalúa las respuestas y las clasifica según la que más le haya gustado.
En un sobre cómo entrena a su IA, OpenAI dijo que da instrucciones a los formadores humanos para que "eviten posicionarse sobre temas controvertidos" y que "los revisores no deben favorecer a ningún grupo político".
Parece una buena idea, pero aunque nos esforcemos por no serlo, todos los humanos somos parciales. Y eso influye inevitablemente en el entrenamiento del modelo.
Incluso los autores del artículo antes mencionado reconocen en su conclusión que sus propios prejuicios podrían haber influido en su investigación.
La solución puede ser intentar que estos modelos lingüísticos no sean atrozmente malos y luego personalizarlos para que se ajusten a los prejuicios que tiene la gente.
A menudo, la gente dice que quiere la verdad imparcial, pero luego acaba aferrándose a su fuente de noticias preferida, como Fox o CNN.
No siempre nos ponemos de acuerdo sobre lo que está bien o mal y esta nueva investigación parece demostrar que la IA tampoco podrá ayudarnos a averiguarlo.