Desde o recente lançamento do GPT-4 Turbo, a mais recente iteração do modelo linguístico da OpenAI, a comunidade de IA tem sido agitada com reacções mistas.
Embora a OpenAI tenha apresentado o GPT-4 Turbo como uma versão mais capaz e eficiente do seu antecessor, as provas anedóticas dos utilizadores sugerem uma experiência variada, particularmente em áreas que requerem raciocínio de alto nível e capacidades de programação.
As provas concretas dos testes de aferição só agora começam a surgir.
Num teste de referência independente, um utilizador avaliou o GPT-4 Turbo em comparação com o GPT-4 e o GPT-3.5 utilizando secções de um teste de leitura oficial do SAT de 2008-2009.
Os resultados indicaram uma diferença notável no desempenho:
- O GPT-3.5 obteve 690 pontos, com 10 respostas incorrectas.
- O GPT-4 obteve 770 pontos, com apenas 3 respostas incorrectas.
- O GPT-4 Turbo, testado em dois modos, obteve 740 (5 erros) e 730 (6 erros), respetivamente.
A OpenAI afirma que o GPT4-turbo é "melhor" do que o GPT4, mas eu fiz os meus próprios testes e não acho que isso seja verdade.
Fiz uma avaliação comparativa da leitura do SAT, que é uma boa referência humana para a capacidade de raciocínio. Fiz 3 secções (67 perguntas) de um teste oficial de 2008-2009 (escala de 2400) e obtive o... pic.twitter.com/LzIYS3R9ny
- Jeffrey Wang (@wangzjeff) 7 de novembro de 2023
Outras referências iniciais dizem o contrário
Foi efectuado um outro teste preliminar de aferição de desempenho para avaliar as capacidades de edição de código desta nova versão, utilizando Aider, uma ferramenta de linha de comando de código aberto concebida para a edição de código assistida por IA.
Verificou-se que o GPT-4 Turbo (GPT-4-1106) apresenta um melhor desempenho em tarefas de codificação, que é, obviamente, uma tarefa diferente do teste de linguagem natural acima referido.
O teste de referência utilizou o Aider para facilitar as interacções entre o utilizador e o modelo GPT-4 para a edição de código em repositórios git locais. O teste envolveu a realização de 133 exercícios de codificação Python do Exercism, proporcionando uma avaliação estruturada e quantitativa da eficiência e precisão da edição de código do modelo.
O processo foi estruturado em duas fases:
- A Aider forneceu ao modelo GPT-4 o ficheiro de código inicial contendo stubs de funções e descrições de problemas em linguagem natural. A primeira resposta do modelo foi aplicada diretamente para editar o código.
- Se o código falhasse no conjunto de testes, Aider apresentava ao modelo o resultado do erro do teste, pedindo-lhe para corrigir o código.
GPT-4-1106-Resultados da análise
- Melhoria da velocidade: O modelo GPT-4-1106-preview mostrou um aumento notável na velocidade de processamento em comparação com os seus antecessores.
- Precisão da primeira tentativa: O modelo demonstrou uma taxa de sucesso de 53% na resolução correcta dos exercícios à primeira tentativa, o que representa uma melhoria em relação à taxa de sucesso de 46 a 47% das versões anteriores do GPT-4.
- Desempenho após as correcções: Após uma segunda oportunidade para corrigir o código com base nos erros do conjunto de testes, o novo modelo atingiu um nível de desempenho semelhante (~62%) ao dos modelos GPT-4 mais antigos, com taxas de sucesso de cerca de 63 a 64%.
Experiências do utilizador em tarefas de programação
Os programadores que utilizam o GPT-4 Turbo para tarefas relacionadas com a codificação têm relatado experiências mistas.
Vários utilizadores do X e do Reddit notaram um declínio na capacidade do modelo de seguir instruções com precisão ou de reter o contexto de forma eficaz em cenários de programação. Alguns voltaram a usar o GPT-4 depois de enfrentarem desafios com o novo modelo.
Um utilizador expressou a sua frustração no Reddit, afirmando: "Sim, é bastante mau. Executo o GPT-4 em alguns scripts e mantenho testes de amostra para garantir que tem o mesmo desempenho. Todos esses testes falharam com o novo GPT-4-preview, e eu tive que reverter para o antigo. Não consegue raciocinar corretamente".
Outro comentou: "É uma loucura algumas das respostas, dá-me vontade de cancelar a minha subscrição".
As anedotas são quase infindáveis, outra diz: "Colei cerca de 100 linhas de código e perguntei-lhe apenas algumas coisas bastante básicas. O código que ele me devolveu era completamente diferente do que eu tinha acabado de lhe mostrar, e quase completamente errado. Nunca o vi ter alucinações tão graves".
Lamentavelmente, notei alguns retrocessos claros no GPT-4 Turbo em comparação com o GPT-4,
especialmente no cumprimento das instruções.
Não sou a única pessoa da comunidade a sentir-se assim.
Não testei em pormenor, mas espero que tomem nota e melhorem.
De resto, é bastante dececionante.- Augusdin (@augusdin) 12 de novembro de 2023
Apesar dos relatórios dos utilizadores, a OpenAI salientou os avanços em GPT-4 Turbodestacando o seu limite de conhecimento alargado até abril de 2023 e uma janela de contexto aumentada capaz de tratar mais de 300 páginas de texto.
A OpenAI também notou a otimização do desempenho do modelo, tornando-o mais rentável. No entanto, os detalhes sobre as técnicas de otimização específicas e o seu impacto nas capacidades do modelo continuam a ser limitados.
O CEO da OpenAI, Sam Altman, anunciou que o Turbo tinha sido editado hoje, pedindo aos utilizadores que experimentassem o modelo novamente, admitindo que existem problemas.
A empresa enfrentou críticas semelhantes em relação às versões do GPT-4, que pareciam queda no desempenho desde o seu lançamento.
OpenAI enfrenta críticas sobre censura
O ChatGPT, desenvolvido pela OpenAI, tem sido escrutinado pela forma como lida com a censura e com potenciais preconceitos políticos.
Os críticos argumentam que o modelo apresenta por vezes uma tendência para evitar ou distorcer temas específicos, especialmente os considerados politicamente sensíveis ou controversos.
Este comportamento é frequentemente atribuído aos dados de formação e às directrizes de moderação que moldam as respostas da IA.
Estas directrizes têm como objetivo evitar a propagação de desinformação, discurso de ódio e conteúdo tendencioso, mas alguns utilizadores consideram que esta abordagem conduz a uma correção excessiva, resultando numa perceção de censura ou parcialidade nas respostas da IA.
Em contrapartida, Grok da xAI tem-se destacado pela sua abordagem aparentemente menos restritiva da moderação de conteúdos.
Os utilizadores da Grok observaram que a plataforma parece mais disposta a envolver-se numa gama mais vasta de tópicos, incluindo aqueles que podem ser filtrados ou tratados com mais cautela pelo ChatGPT.
A Grok, impulsionada pelas artimanhas de Elon Musk, tem sido vista como a "espada" da "IA acordada", da qual o ChatGPT é um porta-estandarte.
Resumindo, os testes de referência sobre o desempenho do GPT-4 Turbo são extremamente limitados neste momento, e confiar em relatórios anedóticos é problemático.
O sucesso crescente da OpenAI colocou a empresa na mira das pessoas, particularmente com o lançamento do Grok da xAI e a sua resistência à "IA acordada".
Por enquanto, é muito difícil ter uma visão objetiva do desempenho do GPT-4 Turbo, mas o debate sobre se os resultados do ChatGPT estão realmente a melhorar vai continuar.