Os investigadores do Meaning Alignment Institute propuseram uma nova abordagem, a Moral Graph Elicitation (MGE), para alinhar os sistemas de IA com os valores humanos.
À medida que a IA se torna mais avançada e integrada na nossa vida quotidiana, é fundamental garantir que serve e representa todos de forma justa. No entanto, aseu estudo argumenta que o alinhamento da IA com os objectivos do utilizador não garante, por si só, a segurança.
"Os sistemas de IA serão implementados em contextos em que a adesão cega à intenção do operador pode causar danos como subproduto. Isto pode ser visto mais claramente em ambientes com dinâmicas competitivas, como campanhas políticas ou gestão de activos financeiros", argumentam os investigadores.
Isto deve-se ao facto de os modelos de IA serem concebidos para servir o utilizador. Se o utilizador der instruções a um modelo para fins nefastos, a vontade do modelo de servir o utilizador pode levá-lo a contornar as barreiras de segurança e a obedecer.
Uma solução é "impregnar" a IA com uma série de valores que esta consulta sempre que lhe é solicitada.
A questão é: de onde vêm esses valores? E podem eles representar as pessoas de forma equitativa?
"Quais são os valores humanos e como é que nos alinhamos com eles?"
É com grande entusiasmo que divulgamos o nosso novo documento sobre o alinhamento de valores, em coautoria com @ryan_t_lowe e financiado por @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29 de março de 2024
Para resolver estas questões, os investigadores propuseram alinhar a IA com uma representação mais profunda dos valores humanos através da MGE.
O método MGE tem duas componentes fundamentais: as cartas de valores e o gráfico moral.
Estes formam um alvo de alinhamento para a formação de modelos de aprendizagem automática.
- Cartões de valores captam o que é importante para uma pessoa numa situação específica. Consistem em "políticas de atenção constitutivas" (CAPs), que são as coisas a que uma pessoa presta atenção quando faz uma escolha significativa. Por exemplo, ao aconselhar um amigo, uma pessoa pode concentrar-se em compreender as suas emoções, sugerir recursos úteis ou considerar os resultados potenciais de diferentes escolhas.
- O gráfico moral representa visualmente as relações entre os cartões de valores, indicando quais os valores que são mais perspicazes ou aplicáveis num determinado contexto. Para construir o gráfico moral, os participantes comparam diferentes cartões de valores, discernindo quais os que, na sua opinião, oferecem uma orientação mais sensata para uma situação específica. Isto aproveita a sabedoria colectiva dos participantes para identificar os valores mais fortes e mais amplamente reconhecidos para cada contexto.
Para testar o método MGE, os investigadores realizaram um estudo com 500 americanos que utilizaram o processo para explorar três temas controversos: o aborto, a parentalidade e as armas utilizadas no motim de 6 de janeiro no Capitólio.
Os resultados foram promissores, com 89,1% dos participantes a sentirem-se bem representados pelo processo e 89% a considerarem que o gráfico moral final era justo, mesmo que o seu valor não tenha sido votado como o mais sensato.
O estudo também descreve seis critérios que um alvo de alinhamento deve possuir para modelar o comportamento de acordo com os valores humanos: deve ser refinado, generalizável, escalável, robusto, legítimo e auditável. Os investigadores argumentam que o gráfico moral produzido pela MGE tem um bom desempenho nestes critérios.
Este estudo propõe uma abordagem semelhante à do Anthropic IA de constituição colectiva, que também recolhe valores de crowdsourcing para o alinhamento da IA.
No entanto, o autor do estudo, Joe Edelman, afirmou no X: "A nossa abordagem, MGE, supera alternativas como o CCAI da @anthropic em termos de legitimidade num estudo de caso e oferece robustez contra a retórica ideológica. 89% até concordam que os valores vencedores eram justos, mesmo que o seu próprio valor não tenha ganho!"
A nossa abordagem, MGE, tem um desempenho superior a alternativas como o CCAI em @anthropic sobre a legitimidade num estudo de caso, e oferece robustez contra a retórica ideológica.
89% até concorda que os valores vencedores são justos, mesmo que o seu próprio valor não tenha ganho! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29 de março de 2024
Limitações
Existem limitações às abordagens de alinhamento da IA que recolhem os valores do público através de crowdsourcing.
Por exemplo, as opiniões divergentes têm sido parte integrante do processo de tomada de decisões da sociedade durante séculos, e a história tem demonstrado que a maioria pode frequentemente adotar os pontos de vista divergentes da minoria. Exemplos disso são a teoria da evolução de Darwin e as lutas para abolir a escravatura e conceder às mulheres o direito de voto.
Além disso, embora a participação direta do público seja democrática, pode conduzir ao populismo, em que a maioria pode sobrepor-se às opiniões minoritárias ou ignorar os conselhos dos peritos.
Outro desafio é equilibrar os valores culturais globais ou universalistas e locais ou relativistas. Os princípios amplamente aceites numa cultura ou região podem ser controversos noutra.
As constituições da IA poderiam reforçar os valores ocidentais, corroendo potencialmente os pontos de vista e as ideias dos que se encontram na periferia.
Embora este novo estudo reconheça as limitações e a necessidade de mais desenvolvimento, fornece outra estratégia para a criação de sistemas de IA que se alinham com os valores humanos.
Todas as tentativas contam para que a IA centralizada possa servir todos de forma justa no futuro.