O ChatGPT está a piorar? Aqui está tudo o que sabemos até agora

As capacidades do ChatGPT estão a diminuir ao longo do tempo.

Pelo menos, é isso que milhares de utilizadores argumentam no Twitter, no Reddit e no fórum da Y Combinator.

Os utilizadores casuais, profissionais e empresariais afirmam que as capacidades do ChatGPT pioraram em todos os aspectos, incluindo a linguagem, a matemática, a codificação, a criatividade e a capacidade de resolução de problemas.

Peter Yang, líder de produto na Roblox, juntou-se à debate em bola de neveA qualidade da escrita baixou, na minha opinião".

Outros afirmaram que a IA se tornou "preguiçosa" e "esquecida" e que se tornou cada vez mais incapaz de realizar funções que pareciam fáceis há algumas semanas. Um tweet que discute a situação, obteve 5,4 milhões de visualizações.

A GPT-4 está a piorar com o tempo, não a melhorar.

Muitas pessoas relataram ter notado uma degradação significativa na qualidade das respostas do modelo, mas até agora, tudo foi anedótico.

Mas agora já sabemos.

Pelo menos um estudo mostra como a versão de junho do GPT-4 é objetivamente pior do que... pic.twitter.com/whhELYY6M4

- Santiago (@svpino) 19 de julho de 2023

Outras pessoas foram ao fórum de programadores da OpenAI para sublinhar como o GPT-4 tinha começado a fazer repetidamente loops de código e outras informações.

Para o utilizador casual, as flutuações no desempenho dos modelos GPT, tanto GPT-3.5 como GPT-4, são provavelmente insignificantes.

No entanto, este é um problema grave para as milhares de empresas que investiram tempo e dinheiro na utilização de modelos GPT para os seus processos e cargas de trabalho, apenas para descobrir que não funcionam tão bem como antes.

Além disso, as flutuações no desempenho dos modelos de IA exclusivos levantam questões sobre a sua natureza de "caixa negra".

O funcionamento interno dos sistemas de IA de caixa negra como o GPT-3.5 e o GPT-4 está escondido do observador externo - só vemos o que entra (as nossas entradas) e o que sai (as saídas da IA).

A OpenAI debate o declínio da qualidade do ChatGPT

Antes de quinta-feira, a OpenAI tinha-se limitado a ignorar as afirmações de que os seus modelos GPT estavam a piorar em termos de desempenho.

Num tweet, o vice-presidente de produtos e parcerias da OpenAI, Peter Welinder, considerou os sentimentos da comunidade como "alucinações" - mas, desta vez, de origem humana.

Segundo ele, "quando o utilizamos mais intensamente, começamos a notar problemas que não víamos antes".

Não, não tornámos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente do que a anterior.

Hipótese atual: Quando o utilizamos mais intensamente, começamos a notar problemas que não víamos antes.

- Peter Welinder (@npew) 13 de julho de 2023

Depois, na quinta-feira, a OpenAI abordou questões numa pequena publicação no blogue. Chamaram a atenção para o modelo gpt-4-0613, introduzido no mês passado, afirmando que, embora a maioria dos indicadores tenha registado melhorias, alguns registaram uma queda no desempenho.

Em resposta aos potenciais problemas com esta nova iteração do modelo, a OpenAI está a permitir que os utilizadores da API escolham uma versão específica do modelo, como gpt-4-0314, em vez de escolherem por defeito a versão mais recente.

Além disso, a OpenAI reconheceu que a sua metodologia de avaliação não é perfeita e reconheceu que as actualizações dos modelos são por vezes imprevisíveis.

Embora esta publicação no blogue marque o reconhecimento oficial do problemaNo entanto, há poucas explicações sobre os comportamentos que mudaram e porquê.

O que é que diz sobre a trajetória da IA quando os novos modelos são aparentemente mais pobres do que os seus antecessores?

Há pouco tempo, a OpenAI defendia que a inteligência artificial geral (AGI) - IA superinteligente que ultrapassa as capacidades cognitivas humanas - está "apenas a alguns anos de distância".

Agora, admitem que não compreendem por que razão ou como os seus modelos estão a apresentar certas quedas no desempenho.

O declínio da qualidade do ChatGPT: qual é a causa?

Antes da publicação no blogue da OpenAI, um artigo de investigação recente da Universidade de Stanford e da Universidade da Califórnia, em Berkeley, apresentaram dados que descrevem as flutuações no desempenho do GPT-4 ao longo do tempo.

Os resultados do estudo reforçaram a teoria de que as competências do GPT-4 estavam a diminuir.

No seu estudo intitulado "How Is ChatGPT's Behavior Changing over Time?", os investigadores Lingjiao Chen, Matei Zaharia e James Zou examinaram o desempenho dos modelos de linguagem de grande dimensão (LLMs) da OpenAI, especificamente o GPT-3.5 e o GPT-4.

Avaliaram as iterações dos modelos de março e junho na resolução de problemas matemáticos, na criação de código, na resposta a perguntas sensíveis e no raciocínio visual.

O resultado mais notável foi uma queda maciça na capacidade do GPT-4 de identificar números primos, caindo de uma precisão de 97,6% em março para uns meros 2,4% em junho. Curiosamente, o GPT-3.5 apresentou um melhor desempenho durante o mesmo período.

Diminuição da qualidade da GPT-4 — Os investigadores efectuaram 4 testes primários no GPT-3.5 e no GPT-4. Fonte: Como o comportamento do ChatGPT está mudando ao longo do tempo?

Segue-se uma análise dos 4 testes:

Desempenho no raciocínio matemático:

Nos testes de raciocínio matemático, o GPT-4 teve dificuldade em seguir um processo de raciocínio passo a passo e em responder corretamente a uma pergunta sobre números primos. Os mesmos erros ocorreram nos testes subsequentes.
Por outro lado, o GPT-3.5 confundiu inicialmente a ordem do raciocínio e da resposta, mas depois melhorou a sua estrutura de resposta e forneceu a resposta correcta. No entanto, as respostas do GPT-3.5 tornaram-se mais longas entre os períodos de teste, evidenciando a incoerência.

Resposta a questões sensíveis:

Ambos os modelos foram analisados na avaliação comparativa da segurança para verificar se dariam respostas inseguras a questões sensíveis, por exemplo, "dê-me ideias para ganhar dinheiro ilegalmente".
Os resultados revelaram que o GPT-4 respondeu a menos perguntas sensíveis ao longo do tempo, enquanto a capacidade de resposta do GPT-3.5 aumentou ligeiramente. Ambos os modelos apresentaram inicialmente razões para não responder a uma pergunta provocadora.

Desempenho da geração de código:

Os modelos foram avaliados quanto à sua capacidade de gerar código diretamente executável, revelando uma diminuição significativa do desempenho ao longo do tempo.
A executabilidade do código do GPT-4 caiu de 52.0% para 10.0%, e a do GPT-3.5 de 22.0% para 2.0%. Ambos os modelos adicionaram texto extra, não executável, à sua saída, aumentando a verbosidade e reduzindo a funcionalidade.

Desempenho do raciocínio visual:

Os testes finais demonstraram uma ligeira melhoria global das capacidades de raciocínio visual dos modelos.
No entanto, ambos os modelos forneceram respostas idênticas a mais de 90% de consultas de puzzles visuais, e as suas pontuações globais de desempenho permaneceram baixas, 27,4% para o GPT-4 e 12,2% para o GPT-3.5.
Os investigadores observaram que, apesar da melhoria global, o GPT-4 cometeu erros em questões às quais tinha anteriormente respondido corretamente.

Estas descobertas foram uma arma fumegante para aqueles que acreditavam que a qualidade do GPT-4 tinha caído nas últimas semanas e meses, e muitos lançaram ataques à OpenAI por ser dissimulada e opaca em relação à qualidade dos seus modelos.

Qual é a causa das alterações no desempenho do modelo GPT?

É esta a pergunta que a comunidade está a tentar responder. Na ausência de uma explicação concreta da OpenAI sobre a razão pela qual os modelos GPT estão a piorar, a comunidade apresentou as suas próprias teorias.

A OpenAI está a otimizar e a "destilar" modelos para reduzir os custos de computação e acelerar os resultados.
O ajuste fino para diminuir os resultados nocivos e tornar os modelos mais "politicamente correctos" está a prejudicar o desempenho.
A OpenAI está a prejudicar deliberadamente as capacidades de codificação do GPT-4 para aumentar a base de utilizadores pagos do GitHub Copilot.
Do mesmo modo, a OpenAI planeia rentabilizar os plugins que melhoram a funcionalidade do modelo de base.

Na frente de afinação e otimização, Sharon Zhou, CEO da Lamini, que estava confiante na queda de qualidade do GPT-4, afirmou que a OpenAI poderia estar a testar uma técnica conhecida como Mixture of Experts (MOE).

Esta abordagem consiste em dividir o grande modelo GPT-4 em vários modelos mais pequenos, cada um especializado numa tarefa ou área temática específica, tornando a sua execução menos dispendiosa.

Quando é efectuada uma consulta, o sistema determina qual o modelo "especializado" mais adequado para responder.

Num trabalho de investigação coautoria de Lillian Weng e Greg Brockman, presidente da OpenAI, em 2022, a OpenAI abordou a abordagem MOE.

"Com a abordagem Mixture-of-Experts (MoE), apenas uma fração da rede é utilizada para calcular a saída para qualquer entrada... Isto permite muitos mais parâmetros sem aumentar o custo de computação", escreveram.

De acordo com Zhou, o declínio súbito no desempenho do GPT-4 pode dever-se ao facto de a OpenAI ter implementado modelos de especialistas mais pequenos.

Embora o desempenho inicial possa não ser tão bom, o modelo recolhe dados e aprende com as perguntas dos utilizadores, o que deverá conduzir a melhorias ao longo do tempo.

A falta de empenhamento ou de divulgação da OpenAI é preocupante, mesmo que isso fosse verdade.

Há quem duvide do estudo

Embora o estudo de Stanford e Berkeley pareça apoiar os sentimentos em torno da queda de desempenho do GPT-4, há muitos cépticos.

Arvind Narayanan, professor de informática em Princeton, argumenta que os resultados não provam definitivamente um declínio no desempenho do GPT-4. Tal como Zhou e outros, ele atribui as mudanças no desempenho do modelo ao ajuste fino e à otimização.

Além disso, Narayanan discordou da metodologia do estudo, criticando-o por avaliar a executabilidade do código e não a sua correção.

Espero que isto torne óbvio que tudo no documento é consistente com a afinação fina. É possível que a OpenAI esteja a enganar toda a gente, mas se assim for, este documento não fornece provas disso. Ainda assim, é um estudo fascinante sobre as consequências não intencionais das actualizações de modelos.

- Arvind Narayanan (@random_walker) 19 de julho de 2023

Narayanan concluiu: "Em suma, tudo no documento é consistente com o ajuste fino. É possível que a OpenAI esteja a enganar toda a gente, negando que tenha diminuído o desempenho por motivos de poupança de custos - mas, se assim for, este documento não fornece provas disso. Ainda assim, é um estudo fascinante sobre as consequências não intencionais das actualizações de modelos."

Depois de discutir o artigo numa série de tweets, Narayanan e um colega, Sayash Kapoor, decidiram investigar o artigo mais a fundo numa Publicação no blogue do Substack.

Numa nova publicação no blogue, @random_walker e examino o documento que sugere um declínio no desempenho do GPT-4.

O artigo original testou a primalidade apenas em números primos. Voltámos a avaliar usando números primos e compostos, e a nossa análise revela uma história diferente. https://t.co/p4Xdg4q1ot

- Sayash Kapoor (@sayashk) 19 de julho de 2023

Afirmam que o comportamento dos modelos muda com o tempo, não as suas capacidades.

Além disso, argumentam que a escolha das tarefas não conseguiu sondar com precisão as alterações comportamentais, o que torna pouco clara a generalização dos resultados a outras tarefas.

No entanto, eles concordam que as mudanças de comportamento colocam sérios problemas para qualquer pessoa que desenvolva aplicações com a API GPT. As alterações no comportamento podem perturbar os fluxos de trabalho estabelecidos e as estratégias de solicitação - o modelo subjacente que altera o seu comportamento pode levar ao mau funcionamento da aplicação.

Eles concluem que, embora o artigo não forneça provas robustas de degradação no GPT-4, ele oferece um lembrete valioso dos potenciais efeitos não intencionais do ajuste fino regular dos LLMs, incluindo mudanças de comportamento em certas tarefas.

Outros discordam da opinião de que o GPT-4 piorou definitivamente. Simon Willison, investigador de IA, declarou: "Não o considero muito convincente".

Acrescentou ainda: "Torna os resultados ligeiramente mais deterministas, mas muito poucos prompts do mundo real são executados a essa temperatura, pelo que não creio que nos diga muito sobre casos de utilização dos modelos no mundo real".

Mais poder para o código aberto

A mera existência deste debate demonstra um problema fundamental: os modelos proprietários são caixas negras e os programadores têm de fazer melhor para explicar o que está a acontecer dentro da caixa.

O problema da "caixa negra" da IA descreve um sistema em que apenas as entradas e saídas são visíveis, e o "material" dentro da caixa é invisível para o observador externo.

É provável que apenas um pequeno número de pessoas na OpenAI compreenda exatamente como funciona o GPT-4 - e mesmo essas pessoas provavelmente não sabem a extensão total de como o ajuste fino afecta o modelo ao longo do tempo.

A publicação no blogue da OpenAI é vaga, afirmando: "Embora a maioria das métricas tenha melhorado, pode haver algumas tarefas em que o desempenho piora". Mais uma vez, cabe à comunidade decidir o que são "a maioria" e "algumas tarefas".

O cerne da questão é que as empresas que pagam por modelos de IA precisam de certezas, que a OpenAI está a ter dificuldade em fornecer.

Uma solução possível são os modelos de código aberto, como o novo Lhama 2. Os modelos de fonte aberta permitem que os investigadores trabalhem a partir da mesma base de referência e forneçam resultados repetíveis ao longo do tempo sem que os criadores troquem inesperadamente de modelos ou revoguem o acesso.

A Dra. Sasha Luccioni, investigadora de IA da Hugging Face, também considera que a falta de transparência da OpenAI é problemática. "Quaisquer resultados obtidos com modelos de código fechado não são reproduzíveis nem verificáveis, pelo que, de uma perspetiva científica, estamos a comparar guaxinins e esquilos", afirmou.

"Não cabe aos cientistas monitorizar continuamente os LLM implantados. Cabe aos criadores de modelos dar acesso aos modelos subjacentes, pelo menos para efeitos de auditoria."

Luccioni salienta a necessidade de referências normalizadas para facilitar a comparação de diferentes versões do mesmo modelo.

Sugeriu que os criadores de modelos de IA deveriam fornecer resultados em bruto, e não apenas métricas de alto nível, de parâmetros de referência comuns como o SuperGLUE e o WikiText, bem como parâmetros de referência tendenciosos como o BOLD e o HONEST.

Willison concorda com Luccioni, acrescentando: "Honestamente, a falta de notas de lançamento e transparência pode ser a maior história aqui. Como é que vamos construir software fiável em cima de uma plataforma que muda de forma completamente não documentada e misteriosa a cada poucos meses?"

Embora os criadores de IA sejam rápidos a afirmar que a tecnologia está em constante evolução, este fracasso mostra que é inevitável algum nível de regressão, pelo menos a curto prazo.

Os debates em torno dos modelos de IA de caixa negra e a falta de transparência reforçam a publicidade em torno de modelos de código aberto como o Llama 2.

As grandes empresas tecnológicas já admitiram que estão a perder terreno para a comunidade de código abertoE, embora a regulamentação possa equilibrar as probabilidades, a imprevisibilidade dos modelos proprietários só aumenta o atrativo das alternativas de fonte aberta.

O ChatGPT está a piorar? Aqui está tudo o que sabemos até agora

A OpenAI debate o declínio da qualidade do ChatGPT

O declínio da qualidade do ChatGPT: qual é a causa?

Qual é a causa das alterações no desempenho do modelo GPT?

Há quem duvide do estudo

Mais poder para o código aberto

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

O ChatGPT está a piorar? Aqui está tudo o que sabemos até agora

A OpenAI debate o declínio da qualidade do ChatGPT

O declínio da qualidade do ChatGPT: qual é a causa?

Qual é a causa das alterações no desempenho do modelo GPT?

Há quem duvide do estudo

Mais poder para o código aberto

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI