A IA supera os humanos em julgamentos morais, diz estudo da Georgia State University

9 de maio de 2024

  • Um estudo da Universidade do Estado da Geórgia analisou a capacidade da GPT-4 para fazer juízos morais
  • Os juízos morais da IA superam os dos humanos na maioria das categorias
  • No entanto, os participantes conseguiram, na sua maioria, detetar quais as respostas provenientes da GPT-4
GPT-4

De acordo com um novo estudo do Departamento de Psicologia do Estado da Geórgia, a IA supera os seres humanos em termos de julgamentos morais.

O estudo, liderado por Eyal Aharoni, professor associado da Georgia State’s Psychology Departmente publicado em Nature Scientific ReportsO objetivo era explorar a forma como os modelos linguísticos lidam com questões éticas.

Inspirado no Turing testque avalia a capacidade de uma máquina apresentar um comportamento inteligente indistinguível do humano, Aharoni concebeu uma versão modificada centrada na tomada de decisões morais.

"Já estava interessado na tomada de decisões morais no sistema jurídico, mas perguntei-me se ChatGPT e outros LLMs poderia ter algo a dizer sobre isso", Aharoni explicado.

 "As pessoas vão interagir com estas ferramentas de formas que têm implicações morais, como as implicações ambientais de pedir uma lista de recomendações para um carro novo. Alguns advogados já começaram a consultar estas tecnologias para os seus casos, para o melhor e para o pior. Por isso, se quisermos utilizar estas ferramentas, devemos compreender como funcionam, as suas limitações e que não estão necessariamente a funcionar da forma que pensamos quando interagimos com elas".

Aharoni tem razão. Já observámos alguns casos de advogados de alto nível, incluindo ex-Trump advogado Michael Cohen, utilizando acidentalmente Citações elaboradas por IA

Apesar das deficiências, alguns estão a apoiar ativamente o papel da IA generativa no direito. No início deste ano, por exemplo, os juízes britânicos deu luz verde à utilização da IA para redigir pareceres jurídicos. 

Neste contexto, o presente estudo examinou a capacidade da GPT-4 para fazer juízos morais, que são, evidentemente, vitais no direito e noutros domínios:

  • Passo 1: Foi colocado aos estudantes universitários e à IA o mesmo conjunto de 10 questões éticas envolvendo transgressões morais e convencionais. As respostas geradas por humanos foram recolhidas de uma amostra de 68 estudantes universitários, enquanto as respostas geradas por IA foram obtidas utilizando OpenAImodelo de linguagem GPT-4.
  • Passo 2: As respostas humanas de melhor qualidade e as respostas GPT-4 foram emparelhadas e apresentadas lado a lado a uma amostra representativa de 299 US adultos, que inicialmente não sabiam que o GPT-4 gerava um conjunto de respostas em cada par.
  • Passo 3: Os participantes classificaram a qualidade relativa de cada par de respostas em dez dimensões (por exemplo, virtuosidade, inteligência, fiabilidade, concordância) sem conhecer a fonte das respostas. 
  • Passo 4: Depois de recolher as classificações de qualidade, os investigadores revelaram que um chatbot treinado em linguagem humana gerou uma das respostas de cada par. Os participantes foram então convidados a identificar qual das respostas foi gerada pelo computador e qual foi gerada por um humano.
  • Passo 5: Os participantes classificaram a sua confiança em cada julgamento e forneceram comentários escritos explicando por que razão acreditavam que a resposta selecionada era gerada por computador. Estes comentários foram posteriormente analisados para identificar temas comuns.

Os juízos morais da IA eram superiores na maior parte das vezes

De forma notável, as respostas geradas pela IA receberam consistentemente classificações mais elevadas relativamente à virtuosidade, inteligência e fiabilidade. Os participantes também relataram níveis mais elevados de concordância com as respostas da IA do que com as respostas humanas.

Além disso, os participantes identificaram muitas vezes corretamente as respostas geradas pela IA a uma taxa significativamente superior ao acaso (80,1% dos participantes fizeram identificações correctas em mais de metade das vezes).

"Depois de obtermos esses resultados, fizemos a grande revelação e dissemos aos participantes que uma das respostas tinha sido gerada por um humano e a outra por um computador, e pedimos-lhes que adivinhassem qual era qual", disse Aharoni.

"A reviravolta é que a razão pela qual as pessoas conseguem distinguir parece ser o facto de terem classificado ChatGPTAs respostas da Comissão Europeia são consideradas superiores".

O estudo tem algumas limitações, por exemplo, o facto de não controlou totalmente os atributos superficiais, como a duração da resposta, que poderiam ter fornecido involuntariamente pistas para identificar as respostas geradas pela IA. Os investigadores referem ainda que Os juízos morais da IA podem ser moldados por preconceitos nos seus dados de treino, variando assim consoante os contextos socioculturais. 

No entanto, este estudo serve como uma incursão útil no raciocínio moral gerado pela IA.

Como explica Aharoni, "as nossas descobertas levam-nos a crer que um computador pode tecnicamente passar um teste moral de Turing - que nos pode enganar no seu raciocínio moral. Por isso, temos de tentar compreender o seu papel na nossa sociedade, porque haverá alturas em que as pessoas não saberão que estão a interagir com um computador e haverá alturas em que saberão e consultarão o computador para obter informações porque confiam mais nele do que nas outras pessoas".

"As pessoas vão depender cada vez mais desta tecnologia e, quanto mais dependermos dela, maior será o risco ao longo do tempo."

É uma questão complicada. Por um lado, é frequente presumirmos que os computadores são capazes de um raciocínio mais objetivo do que nós.

Quando foi pedido aos participantes no estudo que explicassem por que razão acreditavam que a IA gerava uma determinada resposta, o tema mais comum foi o facto de as respostas da IA serem consideradas mais racionais e menos emocionais do que as respostas humanas.

Mas, tendo em conta o enviesamento conferido pelos dados de treino, as alucinações e a sensibilidade da IA a diferentes inputs, a questão de saber se possui uma verdadeira "bússola moral" é muito ambígua.

 Este estudo mostra, pelo menos, que os julgamentos da IA são convincentes numa Turing test cenário. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições