Investigadores del Meaning Alignment Institute han propuesto un nuevo enfoque, Moral Graph Elicitation (MGE), para alinear los sistemas de IA con los valores humanos.
A medida que la IA avanza y se integra en nuestra vida cotidiana, es primordial garantizar que sirva y represente a todos de forma justa. Sin embargosu estudiar sostiene que alinear la IA con los objetivos del usuario no garantiza por sí solo la seguridad.
"Los sistemas de IA se desplegarán en contextos en los que la adhesión ciega a la intención del operador puede causar daños como subproducto. Esto puede verse más claramente en entornos con dinámicas competitivas, como las campañas políticas o la gestión de activos financieros", argumentan los investigadores.
Esto se debe a que los modelos de IA están diseñados para servir al usuario. Si el usuario da instrucciones a un modelo con fines nefastos, el afán del modelo por servir al usuario puede hacer que se salte los guardarraíles y obedezca.
Una solución es "impregnar" a la IA de una serie de valores que consulte cada vez que se le solicite.
La pregunta es: ¿de dónde proceden esos valores? ¿Y pueden representar a las personas de forma equitativa?
"¿Qué son los valores humanos y cómo nos alineamos con ellos?".
Estamos muy contentos de publicar nuestro nuevo documento sobre la alineación de valores, en coautoría con @ryan_t_lowe y financiado por @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29 de marzo de 2024
Para resolver estos problemas, los investigadores propusieron alinear la IA con una representación más profunda de los valores humanos a través del MGE.
El método MGE tiene dos componentes clave: las tarjetas de valores y el gráfico moral.
Constituyen un objetivo de alineación para el entrenamiento de modelos de aprendizaje automático.
- Fichas de valores captan lo que es importante para una persona en una situación concreta. Consisten en "políticas atencionales constitutivas" (PAC), que son las cosas a las que una persona presta atención cuando toma una decisión significativa. Por ejemplo, al aconsejar a un amigo, uno puede centrarse en comprender sus emociones, sugerirle recursos útiles o considerar los posibles resultados de distintas opciones.
- El gráfico moral representa visualmente las relaciones entre las cartas de valores, indicando qué valores son más perspicaces o aplicables en un contexto determinado. Para construir el gráfico moral, los participantes comparan diferentes tarjetas de valores, discerniendo cuáles creen que ofrecen una orientación más sabia para una situación concreta. Así se aprovecha la sabiduría colectiva de los participantes para identificar los valores más sólidos y reconocidos para cada contexto.
Para probar el método MGE, los investigadores realizaron un estudio con 500 estadounidenses que utilizaron el proceso para explorar tres temas controvertidos: el aborto, la paternidad y las armas utilizadas en el motín del 6 de enero en el Capitolio.
Los resultados fueron prometedores: el 89,1% de los participantes se sintió bien representado por el proceso y el 89% pensó que el gráfico moral final era justo, aunque su valor no fuera votado como el más sensato.
El estudio también esboza seis criterios que debe poseer un objetivo de alineación para modelar el comportamiento siguiendo los valores humanos: debe ser de grano fino, generalizable, escalable, robusto, legítimo y auditable. Los investigadores sostienen que el gráfico moral producido por MGE cumple bien estos criterios.
Este estudio propone un enfoque similar al de Anthropic IA Constitiutoria Colectiva, que también recauda valores para la alineación de la IA.
Sin embargo, el autor del estudio, Joe Edelman, dijo en X: "Nuestro enfoque, MGE, supera a alternativas como CCAI por @anthropic en legitimidad en un estudio de caso, y ofrece solidez frente a la retórica ideológica. 89% incluso están de acuerdo en que los valores ganadores fueron justos, ¡incluso si su propio valor no ganó!".
Nuestro enfoque, MGE, supera a alternativas como CCAI en @anthropic sobre la legitimidad en un estudio de caso, y ofrece solidez frente a la retórica ideológica.
89% incluso están de acuerdo en que los valores ganadores fueron justos, ¡aunque su propio valor no ganara! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29 de marzo de 2024
Limitaciones
Los enfoques de alineación de la IA que recurren al crowdsourcing para obtener valores del público tienen sus limitaciones.
Por ejemplo, las opiniones discrepantes han sido parte integrante de la toma de decisiones de la sociedad durante siglos, y la historia ha demostrado que la mayoría a menudo puede adoptar los puntos de vista divergentes de la minoría. Ejemplos de ello son la teoría de la evolución de Darwin y las luchas por abolir la esclavitud y conceder el derecho de voto a las mujeres.
Además, aunque la aportación directa del público es democrática, puede llevar al populismo, donde la mayoría podría anular las opiniones minoritarias o desoír el consejo de los expertos.
Otro reto es equilibrar los valores culturales globales o universalistas y los locales o relativistas. Principios ampliamente aceptados en una cultura o región pueden ser controvertidos en otra.
Las constituciones de la IA podrían reforzar los valores occidentales, erosionando potencialmente las opiniones e ideas de los de la periferia.
Aunque este nuevo estudio reconoce sus limitaciones y la necesidad de seguir desarrollándolo, ofrece otra estrategia para crear sistemas de IA que se ajusten a los valores humanos.
Cada intento cuenta si queremos que la IA centralizada sirva a todos de forma justa en el futuro.