Poderá a "IA constitucional" resolver a questão do comportamento problemático da IA?

7 de outubro de 2023

IA antrópica

À medida que os modelos de IA continuam a integrar-se na nossa vida quotidiana, aumentam as preocupações sobre as limitações e a fiabilidade das suas chamadas "barreiras de proteção".

Os modelos de IA omnipresentes, como o GPT-3.5/4/4V et al., possuem protecções e medidas de segurança incorporadas para evitar que produzam resultados ilícitos, não éticos ou indesejados.

No entanto, estas características de segurança estão longe de ser impermeáveis e os modelos estão a provar o seu potencial para se soltarem dos seus guarda-corpos - ou saírem dos carris, por assim dizer.

Parte do problema é que as barreiras de proteção não estão a acompanhar a complexidade e a diversidade dos modelos. 

Nas últimas semanas, a OpenAI, apoiada pela Microsoft, revelou grandes melhorias no ChatGPT, permitindo-lhe interagir utilizando apenas a voz e responder a questões através de imagens e texto. Esta versão multimodal com capacidade de imagem do GPT-4 foi apelidada de "GPT-4V".

Paralelamente, a Meta anunciou o lançamento de um assistente de IA, vários personalidades do chatbot de celebridades para os utilizadores do WhatsApp e do Instagram, e uma série de outras funcionalidades de IA simples, como os autocolantes de IA. 

As pessoas manipularam prontamente o Meta Autocolantes de IA para gerar imagens cómicas e chocantes de desenhos animados, como Karl Marx nu ou Mario com uma espingarda de assalto. 

À medida que a corrida à comercialização da IA se intensifica, as salvaguardas concebidas para controlar os comportamentos da IA - e impedir que gerem conteúdos nocivos, desinformação ou ajudem em actividades ilícitas - estão a revelar-se mais frágeis. 

Será a IA constitucional a resposta?

Para combater esta situação, as empresas de desenvolvimento de IA estão a esforçar-se por criar "constituições de IA", um conjunto de princípios e valores fundamentais aos quais os modelos de IA devem aderir. A startup Antrópica foi um dos primeiros a defender a "IA constitucional" numa Papel 2022.

A Google DeepMind também estabeleceu regras constitucionais para o seu chatbot Pardal em 2022 para manter conversas "úteis, correctas e inofensivas". 

As constituições de IA do Anthropic derivam princípios de várias fontes, incluindo a Declaração dos Direitos Humanos da ONU e os termos de serviço da Apple. O modelo está equipado com princípios morais fundamentais que impulsionam o comportamento de baixo para cima, em vez de imporem protecções de cima para baixo. 

Em vez de treinar laboriosamente a IA com inúmeros exemplos de certo ou errado fornecidos por seres humanos, esta abordagem incorpora um conjunto de regras ou princípios - uma "constituição" - que a IA cumpre.

Inicialmente, a IA é apresentada a uma situação, depois é-lhe pedido que critique a sua resposta e, por último, que afine o seu comportamento com base na solução revista.

De seguida, o sistema mergulha na fase de aprendizagem por reforço. Aqui, avalia a qualidade das suas próprias respostas, distinguindo a melhor. Com o tempo, esta autoavaliação refina o seu comportamento.

A diferença é que a IA utiliza o seu ciclo de feedback para determinar a recompensa, num método denominado "RL from AI Feedback" (RLAIF). Quando confrontada com pedidos potencialmente prejudiciais ou enganadores, a IA não se limita a esquivar-se ou a recusar. Em vez disso, aborda o assunto de frente, explicando porque é que esse pedido pode ser problemático.

É um passo em frente na criação de máquinas que não só computam, mas também "pensam" de uma forma estruturada.

Dario Amodei, diretor executivo e cofundador da Anthropic, sublinhou o desafio de compreender o funcionamento interno dos modelos de IA. Ele sugere que a existência de uma constituição tornaria as regras transparentes e explícitas, assegurando que todos os utilizadores sabem o que esperar. 

É importante salientar que também oferece um meio de responsabilizar o modelo caso este não cumpra os princípios delineados.

Apesar destes esforços, as constituições de IA não estão isentas de falhas e os modelos de criadores como o Anthropic têm-se apresentado como vulneráveis a fugas da prisão como muitos outros. 

Não existem vias universalmente aceites para formar modelos de IA seguros e éticos

Historicamente, os modelos de IA têm sido aperfeiçoados utilizando um método denominado aprendizagem por reforço através de feedback humano (RLHF), em que as respostas da IA são classificadas como "boas" ou "más" por grandes equipas de avaliadores humanos. 

Embora eficaz até certo ponto, este método tem sido criticado pela sua falta de exatidão e especificidade. Para garantir a ética e a segurança da IA, as empresas estão agora a explorar soluções alternativas.

Por exemplo, a OpenAI adoptou a abordagem "red-teaming", contratando peritos de várias disciplinas para testar e identificar os pontos fracos dos seus modelos.

O sistema da OpenAI funciona em iterações: o modelo de IA produz resultados, os revisores humanos avaliam e corrigem esses resultados com base em directrizes específicas e o modelo aprende com este feedback. Os dados de formação destes revisores são vitais para a calibração ética do modelo.

O ChatGPT opta frequentemente por uma resposta conservadora quando confrontado com temas controversos ou sensíveis, evitando por vezes uma resposta direta. Isto contrasta com a IA constitucional, em que o modelo deve elucidar as suas reservas quando confrontado com questões potencialmente prejudiciais, demonstrando ativamente um raciocínio baseado nas suas regras fundamentais.

Essencialmente, enquanto o ChatGPT se baseia fortemente no feedback humano para a sua orientação ética, a IA constitucional utiliza um quadro baseado em regras definidas com mecanismos de auto-revisão e uma ênfase no raciocínio transparente.

No final, é provável que não exista uma abordagem única para o desenvolvimento de IAs "seguras" - e alguns, como Elon Musk, criticam a noção de IA "acordada" e higienizada. Estudos comprovaram que até mesmo as IAs constitucionais podem ser desbloqueadas, manipulando-as para um comportamento imprevisível. 

Rebecca Johnson, investigadora em ética da IA na Universidade de Sydney, salientou que os engenheiros de IA e os cientistas informáticos abordam frequentemente os problemas com o objetivo de encontrar soluções definitivas, que nem sempre têm em conta as complexidades da natureza humana. 

"Temos de começar a tratar a IA generativa como extensões dos seres humanos, são apenas mais um aspeto da humanidade", afirmou. 

O controlo global da IA como uma espécie de sistema técnico simples só se tornará mais difícil à medida que evoluiE o mesmo se pode dizer dos organismos biológicos como nós.

A divergência, provocada ou não, é talvez inevitável.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições