Sistemas de IA generativa, alucinações e dívida técnica crescente

À medida que os sistemas de IA, como os modelos de linguagem de grande dimensão (LLM), crescem em tamanho e complexidade, os investigadores estão a descobrir limitações fundamentais intrigantes.

Estudos recentes da Google e da Universidade de Singapura revelaram os mecanismos subjacentes às "alucinações" da IA - em que os modelos geram informações convincentes mas fabricadas - e à acumulação de "dívidas técnicas", que podem criar sistemas confusos e pouco fiáveis ao longo do tempo.

Para além dos desafios técnicos, alinhar as capacidades e os incentivos da IA com os valores humanos continua a ser uma questão em aberto.

À medida que empresas como a OpenAI avançam na direção da inteligência artificial geral (AGI), assegurar o caminho a seguir significa reconhecer os limites dos sistemas actuais.

No entanto, o reconhecimento cuidadoso dos riscos é antitético ao lema de Silicon Valley de "andar depressa e partir coisas", que caracteriza a I&D em IA, tal como aconteceu com as inovações tecnológicas anteriores.

Estudo 1: Os modelos de IA estão a acumular "dívida técnica

A aprendizagem automática é frequentemente apresentada como sendo continuamente escalável, com sistemas que oferecem uma estrutura modular e integrada para o desenvolvimento.

No entanto, em segundo plano, os programadores podem estar a acumular um elevado nível de "dívida técnica" que terão de resolver mais tarde.

Num Artigo de investigação do GoogleNo artigo "Machine Learning: The High-Interest Credit Card of Technical Debt", os investigadores debatem o conceito de dívida técnica no contexto dos sistemas de aprendizagem automática.

O CEO da Kaggle e investigador de longa data da Google, D. Sculley, e os seus colegas argumentam que, embora o ML ofereça ferramentas poderosas para construir rapidamente sistemas complexos, estes "ganhos rápidos" são muitas vezes enganadores.

A simplicidade e a rapidez da implementação de modelos de ML podem ocultar os encargos futuros que impõem à manutenção e evolução do sistema.

Como os autores descrevem, esta dívida oculta resulta de vários factores de risco específicos do ML que os programadores devem evitar ou refactorizar.

Eis as principais conclusões:

Os sistemas de aprendizagem automática, pela sua natureza, introduzem um nível de complexidade que ultrapassa a simples codificação. Isto pode levar ao que os autores chamam de "erosão das fronteiras", em que as linhas claras entre os diferentes componentes do sistema se tornam difusas devido às interdependências criadas pelos modelos de ML. Isto torna difícil isolar e implementar melhorias sem afetar outras partes do sistema.
O documento também destaca o problema do "emaranhamento", em que as alterações em qualquer parte de um sistema de ML, como características de entrada ou parâmetros de modelo, podem ter efeitos imprevisíveis no resto do sistema. A alteração de um pequeno parâmetro pode provocar uma cascata de efeitos que afectam a função e a integridade de todo o modelo.
Outra questão é a criação de "ciclos de feedback ocultos", em que os modelos de ML influenciam os seus próprios dados de formação de formas imprevistas. Isto pode levar a sistemas que evoluem em direcções não intencionais, agravando a dificuldade de gerir e compreender o comportamento do sistema.
Os autores também abordam as "dependências de dados", como quando os sinais de entrada mudam ao longo do tempo, que são particularmente problemáticas porque são mais difíceis de detetar.

Porque é que a dívida técnica é importante

A dívida técnica afecta a saúde e a eficiência a longo prazo dos sistemas de aprendizagem automática.

Quando os programadores se apressam a pôr os sistemas de aprendizagem automática a funcionar, podem ignorar as complexidades confusas do tratamento de dados ou as armadilhas da "colagem" de diferentes partes.

Isto pode funcionar a curto prazo, mas pode levar a uma confusão difícil de dissecar, atualizar ou mesmo compreender mais tarde.

⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️

A GenAI é uma avalanche de dívida técnica* à espera de acontecer

Só esta semana
👉ChatGPT ficou "berserk" sem quase nenhuma explicação real
👉Sora não consegue inferir de forma consistente quantas pernas tem um gato
👉A intervenção de diversidade da Gemini saiu completamente dos carris.... pic.twitter.com/qzrVlpX9yz

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 24 de fevereiro de 2024

Por exemplo, a utilização de modelos de ML tal como estão, a partir de uma biblioteca, parece eficiente até se ficar preso a um pesadelo de "código de cola", em que a maior parte do sistema é apenas fita adesiva a juntar pedaços que não foram concebidos para se encaixarem.

Ou considere as "selvas de condutas", descritas num artigo anterior de D. Sculley e colegas, onde a preparação de dados se torna um labirinto de processos interligados, pelo que fazer uma mudança é como desarmar uma bomba.

As implicações da dívida técnica

Para começar, quanto mais emaranhado um sistema se torna, mais difícil é melhorá-lo ou mantê-lo. Isto não só reprime a inovação, como também pode levar a problemas mais sinistros. Este facto não só trava a inovação como também pode conduzir a problemas mais sinistros.

Por exemplo, se um sistema de aprendizagem automática começar a tomar decisões com base em dados desactualizados ou tendenciosos porque é demasiado complicado actualizá-los, pode reforçar ou amplificam os preconceitos sociais.

Além disso, em aplicações críticas como cuidados de saúde ou veículos autónomos, essa dívida técnica pode ter consequências terríveis, não só em termos de tempo e dinheiro, mas também de bem-estar humano.

Como descreve o estudo, "nem todas as dívidas são necessariamente más, mas as dívidas técnicas tendem a agravar-se. Adiar o trabalho para o pagar resulta no aumento dos custos, na fragilidade do sistema e na redução das taxas de inovação."

É também uma chamada de atenção para que as empresas e os consumidores exijam transparência e responsabilidade nas tecnologias de IA que adoptam.

Afinal, o objetivo é aproveitar o poder da IA para melhorar a vida, e não ficar atolado num ciclo interminável de pagamento de dívidas técnicas.

Estudo 2: Não é possível separar as alucinações dos LLMs

Num outro, mas estudo relacionado da Universidade Nacional de Singapura, os investigadores Ziwei Xu, Sanjay Jain e Mohan Kankanhalli investigaram as limitações inerentes aos LLM.

"A alucinação é inevitável: An Innate Limitation of Large Language Models" explora a natureza das alucinações da IA, que descrevem os casos em que os sistemas de IA geram informações plausíveis mas inexactas ou totalmente fabricadas.

Os fenómenos de alucinação representam um grande desafio técnico, uma vez que evidenciam uma lacuna fundamental entre o resultado de um modelo de IA e o que é considerado a "verdade fundamental" - um modelo ideal que produz sempre informações correctas e lógicas.

Compreender como e porque é que a IA generativa alucina é fundamental à medida que a tecnologia se integra em sectores críticos como o policiamento e a justiça, os cuidados de saúde e o direito.

E se fosse possível *provar* que as alucinações são inevitáveis nos LLMs?

Isso mudaria
- Como vê os LLM?
- Qual o investimento que faria neles?
- Em que medida daria prioridade à investigação de alternativas?

Um novo documento defende esta tese: https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 25 de fevereiro de 2024

Fundamentos teóricos das alucinações

O estudo começa por apresentar um quadro teórico para a compreensão das alucinações nos MMII.

Os investigadores ccriaram um modelo teórico conhecido como o "mundo formal". Este ambiente simplificado e controlado permitiu-lhes observar as condições em que os modelos de IA não se alinham com a verdade terrestre.

De seguida, testaram duas grandes famílias de LLMs:

Lhama 2: Especificamente, foi utilizada a versão de 70 biliões de parâmetros (llama2-70b-chat-hf) acessível no HuggingFace. Este modelo representa uma das mais recentes entradas na arena dos grandes modelos linguísticos, concebido para uma vasta gama de tarefas de geração e compreensão de texto.
Transformadores pré-treinados generativos (GPT): O estudo incluiu testes com o GPT-3.5, especificamente o modelo gpt-3.5-turbo-16k de 175 mil milhões de parâmetros, e o GPT-4 (gpt-4-0613), cujo número exato de parâmetros não foi revelado.

Pediu-se aos LLM que listassem cadeias de caracteres de um determinado comprimento utilizando um alfabeto específico, uma tarefa computacional aparentemente simples.

Mais especificamente, os modelos foram encarregados de gerar todas as cadeias possíveis de comprimentos que variam de 1 a 7, utilizando alfabetos de dois caracteres (por exemplo, {a, b}) e de três caracteres (por exemplo, {a, b, c}).

Os resultados foram avaliados com base no facto de conterem todas e apenas as cadeias de caracteres do comprimento especificado do alfabeto dado.

Conclusões

Os resultados mostraram uma clara limitação nas capacidades dos modelos para completar a tarefa corretamente à medida que a complexidade aumentava (ou seja, à medida que o comprimento da cadeia ou o tamanho do alfabeto aumentavam). Especificamente:

Os modelos tiveram um desempenho adequado para cadeias de caracteres mais curtas e alfabetos mais pequenos, mas falharam à medida que a complexidade da tarefa aumentou.
Nomeadamente, mesmo o modelo avançado GPT-4, o LLM mais sofisticado atualmente disponível, não conseguiu listar com sucesso todas as cadeias de caracteres para além de determinados comprimentos.

Isto mostra que as alucinações não são uma simples falha que pode ser remendada ou corrigida - são um aspeto fundamental da forma como estes modelos compreendem e reproduzem a linguagem humana.

Como o estudo descreve, "Os LLM não podem aprender tudo de as funções computáveis e, por conseguinte, terá sempre alucinações. Uma vez que o mundo formal é uma parte de o mundo real que é muito mais complicadas, as alucinações são também inevitável para LLMs do mundo real".

As implicações para as aplicações de alto risco são vastas. Em sectores como os cuidados de saúde, as finanças ou o direito, em que a exatidão da informação pode ter consequências graves, confiar num LLM sem um sistema de segurança para filtrar estas alucinações pode conduzir a erros graves.

Este estudo chamou a atenção do especialista em IA Dr. Gary Marcus e do eminente psicólogo cognitivo Dr. Steven Pinker.

A alucinação é inevitável nos grandes modelos linguísticos devido à sua conceção: não há representação de factos ou coisas, apenas intercorrelações estatísticas. Nova prova de "uma limitação inata" dos LLMs. https://t.co/Hl1kqxJGXt

- Steven Pinker (@sapinker) 25 de fevereiro de 2024

Estão em causa questões mais profundas

A acumulação de dívida técnica e a inevitabilidade de alucinações nos LLM são sintomáticas de uma questão mais profunda - o atual paradigma de desenvolvimento da IA pode estar inerentemente desalinhado para criar sistemas altamente inteligentes e alinhados de forma fiável com os valores humanos e a verdade factual.

Em domínios sensíveis, ter um sistema de IA que esteja certo na maior parte do tempo não é suficiente. Tanto a dívida técnica como as alucinações ameaçam a integridade do modelo ao longo do tempo.

Resolver este problema não é apenas um desafio técnico, mas um desafio multidisciplinar, que exige a contribuição da ética da IA, da política e dos conhecimentos específicos de um domínio para navegar em segurança.

Neste momento, isto parece estar em contradição com os princípios de uma indústria que vive de acordo com o lema "andar depressa e partir coisas".

Esperemos que os humanos não sejam as "coisas".

Sistemas de IA generativa, alucinações e dívida técnica crescente

Estudo 1: Os modelos de IA estão a acumular "dívida técnica