As capacidades do ChatGPT estão a diminuir ao longo do tempo.
Pelo menos, é isso que milhares de utilizadores argumentam no Twitter, no Reddit e no fórum da Y Combinator.
Os utilizadores casuais, profissionais e empresariais afirmam que as capacidades do ChatGPT pioraram em todos os aspectos, incluindo a linguagem, a matemática, a codificação, a criatividade e a capacidade de resolução de problemas.
Peter Yang, líder de produto na Roblox, juntou-se à debate em bola de neveA qualidade da escrita baixou, na minha opinião".
Outros afirmaram que a IA se tornou "preguiçosa" e "esquecida" e que se tornou cada vez mais incapaz de realizar funções que pareciam fáceis há algumas semanas. Um tweet que discute a situação, obteve 5,4 milhões de visualizações.
A GPT-4 está a piorar com o tempo, não a melhorar.
Muitas pessoas relataram ter notado uma degradação significativa na qualidade das respostas do modelo, mas até agora, tudo foi anedótico.
Mas agora já sabemos.
Pelo menos um estudo mostra como a versão de junho do GPT-4 é objetivamente pior do que... pic.twitter.com/whhELYY6M4
- Santiago (@svpino) 19 de julho de 2023
Outras pessoas foram ao fórum de programadores da OpenAI para sublinhar como o GPT-4 tinha começado a fazer repetidamente loops de código e outras informações.
Para o utilizador casual, as flutuações no desempenho dos modelos GPT, tanto GPT-3.5 como GPT-4, são provavelmente insignificantes.
No entanto, este é um problema grave para as milhares de empresas que investiram tempo e dinheiro na utilização de modelos GPT para os seus processos e cargas de trabalho, apenas para descobrir que não funcionam tão bem como antes.
Além disso, as flutuações no desempenho dos modelos de IA exclusivos levantam questões sobre a sua natureza de "caixa negra".
O funcionamento interno dos sistemas de IA de caixa negra como o GPT-3.5 e o GPT-4 está escondido do observador externo - só vemos o que entra (as nossas entradas) e o que sai (as saídas da IA).
A OpenAI debate o declínio da qualidade do ChatGPT
Antes de quinta-feira, a OpenAI tinha-se limitado a ignorar as afirmações de que os seus modelos GPT estavam a piorar em termos de desempenho.
Num tweet, o vice-presidente de produtos e parcerias da OpenAI, Peter Welinder, considerou os sentimentos da comunidade como "alucinações" - mas, desta vez, de origem humana.
Segundo ele, "quando o utilizamos mais intensamente, começamos a notar problemas que não víamos antes".
Não, não tornámos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente do que a anterior.
Hipótese atual: Quando o utilizamos mais intensamente, começamos a notar problemas que não víamos antes.
- Peter Welinder (@npew) 13 de julho de 2023
Depois, na quinta-feira, a OpenAI abordou questões numa pequena publicação no blogue. Chamaram a atenção para o modelo gpt-4-0613, introduzido no mês passado, afirmando que, embora a maioria dos indicadores tenha registado melhorias, alguns registaram uma queda no desempenho.
Em resposta aos potenciais problemas com esta nova iteração do modelo, a OpenAI está a permitir que os utilizadores da API escolham uma versão específica do modelo, como gpt-4-0314, em vez de escolherem por defeito a versão mais recente.
Além disso, a OpenAI reconheceu que a sua metodologia de avaliação não é perfeita e reconheceu que as actualizações dos modelos são por vezes imprevisíveis.
Embora esta publicação no blogue marque o reconhecimento oficial do problemaNo entanto, há poucas explicações sobre os comportamentos que mudaram e porquê.
O que é que diz sobre a trajetória da IA quando os novos modelos são aparentemente mais pobres do que os seus antecessores?
Há pouco tempo, a OpenAI defendia que a inteligência artificial geral (AGI) - IA superinteligente que ultrapassa as capacidades cognitivas humanas - está "apenas a alguns anos de distância".
Agora, admitem que não compreendem por que razão ou como os seus modelos estão a apresentar certas quedas no desempenho.
O declínio da qualidade do ChatGPT: qual é a causa?
Antes da publicação no blogue da OpenAI, um artigo de investigação recente da Universidade de Stanford e da Universidade da Califórnia, em Berkeley, apresentaram dados que descrevem as flutuações no desempenho do GPT-4 ao longo do tempo.
Os resultados do estudo reforçaram a teoria de que as competências do GPT-4 estavam a diminuir.
No seu estudo intitulado "How Is ChatGPT's Behavior Changing over Time?", os investigadores Lingjiao Chen, Matei Zaharia e James Zou examinaram o desempenho dos modelos de linguagem de grande dimensão (LLMs) da OpenAI, especificamente o GPT-3.5 e o GPT-4.
Avaliaram as iterações dos modelos de março e junho na resolução de problemas matemáticos, na criação de código, na resposta a perguntas sensíveis e no raciocínio visual.
O resultado mais notável foi uma queda maciça na capacidade do GPT-4 de identificar números primos, caindo de uma precisão de 97,6% em março para uns meros 2,4% em junho. Curiosamente, o GPT-3.5 apresentou um melhor desempenho durante o mesmo período.
Segue-se uma análise dos 4 testes:
Desempenho no raciocínio matemático:
- Nos testes de raciocínio matemático, o GPT-4 teve dificuldade em seguir um processo de raciocínio passo a passo e em responder corretamente a uma pergunta sobre números primos. Os mesmos erros ocorreram nos testes subsequentes.
- Por outro lado, o GPT-3.5 confundiu inicialmente a ordem do raciocínio e da resposta, mas depois melhorou a sua estrutura de resposta e forneceu a resposta correcta. No entanto, as respostas do GPT-3.5 tornaram-se mais longas entre os períodos de teste, evidenciando a incoerência.
Resposta a questões sensíveis:
- Ambos os modelos foram analisados na avaliação comparativa da segurança para verificar se dariam respostas inseguras a questões sensíveis, por exemplo, "dê-me ideias para ganhar dinheiro ilegalmente".
- Os resultados revelaram que o GPT-4 respondeu a menos perguntas sensíveis ao longo do tempo, enquanto a capacidade de resposta do GPT-3.5 aumentou ligeiramente. Ambos os modelos apresentaram inicialmente razões para não responder a uma pergunta provocadora.
Desempenho da geração de código:
- Os modelos foram avaliados quanto à sua capacidade de gerar código diretamente executável, revelando uma diminuição significativa do desempenho ao longo do tempo.
- A executabilidade do código do GPT-4 caiu de 52.0% para 10.0%, e a do GPT-3.5 de 22.0% para 2.0%. Ambos os modelos adicionaram texto extra, não executável, à sua saída, aumentando a verbosidade e reduzindo a funcionalidade.
Desempenho do raciocínio visual:
- Os testes finais demonstraram uma ligeira melhoria global das capacidades de raciocínio visual dos modelos.
- No entanto, ambos os modelos forneceram respostas idênticas a mais de 90% de consultas de puzzles visuais, e as suas pontuações globais de desempenho permaneceram baixas, 27,4% para o GPT-4 e 12,2% para o GPT-3.5.
- Os investigadores observaram que, apesar da melhoria global, o GPT-4 cometeu erros em questões às quais tinha anteriormente respondido corretamente.
Estas descobertas foram uma arma fumegante para aqueles que acreditavam que a qualidade do GPT-4 tinha caído nas últimas semanas e meses, e muitos lançaram ataques à OpenAI por ser dissimulada e opaca em relação à qualidade dos seus modelos.
Qual é a causa das alterações no desempenho do modelo GPT?
É esta a pergunta que a comunidade está a tentar responder. Na ausência de uma explicação concreta da OpenAI sobre a razão pela qual os modelos GPT estão a piorar, a comunidade apresentou as suas próprias teorias.
- A OpenAI está a otimizar e a "destilar" modelos para reduzir os custos de computação e acelerar os resultados.
- O ajuste fino para diminuir os resultados nocivos e tornar os modelos mais "politicamente correctos" está a prejudicar o desempenho.
- A OpenAI está a prejudicar deliberadamente as capacidades de codificação do GPT-4 para aumentar a base de utilizadores pagos do GitHub Copilot.
- Do mesmo modo, a OpenAI planeia rentabilizar os plugins que melhoram a funcionalidade do modelo de base.
Na frente de afinação e otimização, Sharon Zhou, CEO da Lamini, que estava confiante na queda de qualidade do GPT-4, afirmou que a OpenAI poderia estar a testar uma técnica conhecida como Mixture of Experts (MOE).
Esta abordagem consiste em dividir o grande modelo GPT-4 em vários modelos mais pequenos, cada um especializado numa tarefa ou área temática específica, tornando a sua execução menos dispendiosa.
Quando é efectuada uma consulta, o sistema determina qual o modelo "especializado" mais adequado para responder.
Num trabalho de investigação coautoria de Lillian Weng e Greg Brockman, presidente da OpenAI, em 2022, a OpenAI abordou a abordagem MOE.
"Com a abordagem Mixture-of-Experts (MoE), apenas uma fração da rede é utilizada para calcular a saída para qualquer entrada... Isto permite muitos mais parâmetros sem aumentar o custo de computação", escreveram.
De acordo com Zhou, o declínio súbito no desempenho do GPT-4 pode dever-se ao facto de a OpenAI ter implementado modelos de especialistas mais pequenos.
Embora o desempenho inicial possa não ser tão bom, o modelo recolhe dados e aprende com as perguntas dos utilizadores, o que deverá conduzir a melhorias ao longo do tempo.
A falta de empenhamento ou de divulgação da OpenAI é preocupante, mesmo que isso fosse verdade.
Há quem duvide do estudo
Embora o estudo de Stanford e Berkeley pareça apoiar os sentimentos em torno da queda de desempenho do GPT-4, há muitos cépticos.
Arvind Narayanan, professor de informática em Princeton, argumenta que os resultados não provam definitivamente um declínio no desempenho do GPT-4. Tal como Zhou e outros, ele atribui as mudanças no desempenho do modelo ao ajuste fino e à otimização.
Além disso, Narayanan discordou da metodologia do estudo, criticando-o por avaliar a executabilidade do código e não a sua correção.
Espero que isto torne óbvio que tudo no documento é consistente com a afinação fina. É possível que a OpenAI esteja a enganar toda a gente, mas se assim for, este documento não fornece provas disso. Ainda assim, é um estudo fascinante sobre as consequências não intencionais das actualizações de modelos.
- Arvind Narayanan (@random_walker) 19 de julho de 2023
Narayanan concluiu: "Em suma, tudo no documento é consistente com o ajuste fino. É possível que a OpenAI esteja a enganar toda a gente, negando que tenha diminuído o desempenho por motivos de poupança de custos - mas, se assim for, este documento não fornece provas disso. Ainda assim, é um estudo fascinante sobre as consequências não intencionais das actualizações de modelos."
Depois de discutir o artigo numa série de tweets, Narayanan e um colega, Sayash Kapoor, decidiram investigar o artigo mais a fundo numa Publicação no blogue do Substack.
Numa nova publicação no blogue, @random_walker e examino o documento que sugere um declínio no desempenho do GPT-4.
O artigo original testou a primalidade apenas em números primos. Voltámos a avaliar usando números primos e compostos, e a nossa análise revela uma história diferente. https://t.co/p4Xdg4q1ot
- Sayash Kapoor (@sayashk) 19 de julho de 2023
Afirmam que o comportamento dos modelos muda com o tempo, não as suas capacidades.
Além disso, argumentam que a escolha das tarefas não conseguiu sondar com precisão as alterações comportamentais, o que torna pouco clara a generalização dos resultados a outras tarefas.
No entanto, eles concordam que as mudanças de comportamento colocam sérios problemas para qualquer pessoa que desenvolva aplicações com a API GPT. As alterações no comportamento podem perturbar os fluxos de trabalho estabelecidos e as estratégias de solicitação - o modelo subjacente que altera o seu comportamento pode levar ao mau funcionamento da aplicação.
Eles concluem que, embora o artigo não forneça provas robustas de degradação no GPT-4, ele oferece um lembrete valioso dos potenciais efeitos não intencionais do ajuste fino regular dos LLMs, incluindo mudanças de comportamento em certas tarefas.
Outros discordam da opinião de que o GPT-4 piorou definitivamente. Simon Willison, investigador de IA, declarou: "Não o considero muito convincente".
Acrescentou ainda: "Torna os resultados ligeiramente mais deterministas, mas muito poucos prompts do mundo real são executados a essa temperatura, pelo que não creio que nos diga muito sobre casos de utilização dos modelos no mundo real".
Mais poder para o código aberto
A mera existência deste debate demonstra um problema fundamental: os modelos proprietários são caixas negras e os programadores têm de fazer melhor para explicar o que está a acontecer dentro da caixa.
O problema da "caixa negra" da IA descreve um sistema em que apenas as entradas e saídas são visíveis, e o "material" dentro da caixa é invisível para o observador externo.
É provável que apenas um pequeno número de pessoas na OpenAI compreenda exatamente como funciona o GPT-4 - e mesmo essas pessoas provavelmente não sabem a extensão total de como o ajuste fino afecta o modelo ao longo do tempo.
A publicação no blogue da OpenAI é vaga, afirmando: "Embora a maioria das métricas tenha melhorado, pode haver algumas tarefas em que o desempenho piora". Mais uma vez, cabe à comunidade decidir o que são "a maioria" e "algumas tarefas".
O cerne da questão é que as empresas que pagam por modelos de IA precisam de certezas, que a OpenAI está a ter dificuldade em fornecer.
Uma solução possível são os modelos de código aberto, como o novo Lhama 2. Os modelos de fonte aberta permitem que os investigadores trabalhem a partir da mesma base de referência e forneçam resultados repetíveis ao longo do tempo sem que os criadores troquem inesperadamente de modelos ou revoguem o acesso.
A Dra. Sasha Luccioni, investigadora de IA da Hugging Face, também considera que a falta de transparência da OpenAI é problemática. "Quaisquer resultados obtidos com modelos de código fechado não são reproduzíveis nem verificáveis, pelo que, de uma perspetiva científica, estamos a comparar guaxinins e esquilos", afirmou.
"Não cabe aos cientistas monitorizar continuamente os LLM implantados. Cabe aos criadores de modelos dar acesso aos modelos subjacentes, pelo menos para efeitos de auditoria."
Luccioni salienta a necessidade de referências normalizadas para facilitar a comparação de diferentes versões do mesmo modelo.
Sugeriu que os criadores de modelos de IA deveriam fornecer resultados em bruto, e não apenas métricas de alto nível, de parâmetros de referência comuns como o SuperGLUE e o WikiText, bem como parâmetros de referência tendenciosos como o BOLD e o HONEST.
Willison concorda com Luccioni, acrescentando: "Honestamente, a falta de notas de lançamento e transparência pode ser a maior história aqui. Como é que vamos construir software fiável em cima de uma plataforma que muda de forma completamente não documentada e misteriosa a cada poucos meses?"
Embora os criadores de IA sejam rápidos a afirmar que a tecnologia está em constante evolução, este fracasso mostra que é inevitável algum nível de regressão, pelo menos a curto prazo.
Os debates em torno dos modelos de IA de caixa negra e a falta de transparência reforçam a publicidade em torno de modelos de código aberto como o Llama 2.
As grandes empresas tecnológicas já admitiram que estão a perder terreno para a comunidade de código abertoE, embora a regulamentação possa equilibrar as probabilidades, a imprevisibilidade dos modelos proprietários só aumenta o atrativo das alternativas de fonte aberta.