ChatGPT mostra pontos fortes na emulação do processo de revisão por pares

22 de outubro de 2023

Revisão por pares IA

A abordagem convencional à investigação científica baseia-se fortemente na revisão por pares, em que outros cientistas avaliam e criticam meticulosamente um estudo antes de este ser publicado. 

No entanto, este sistema tradicional está a sofrer um estrangulamento devido ao número crescente de submissões e à escassez de revisores humanos disponíveis. 

"Está a tornar-se cada vez mais difícil para os investigadores obterem feedback de alta qualidade dos revisores", afirma James Zou, da Universidade de Stanford.

Em resposta a este desafio, Zou e a sua equipa virou-se para o ChatGPT para descobrir se o chatbot podia dar um feedback claro e objetivo sobre artigos de investigação. Utilizaram o GPT-4 para analisar mais de 3000 manuscritos da Nature e mais de 1700 artigos da Conferência Internacional sobre Representações de Aprendizagem (ICLR). 

Ao comparar o feedback do ChatGPT com o dos revisores humanos sobre os mesmos artigos, verificaram que mais de 50% dos comentários da IA sobre os artigos da Nature e mais de 77% sobre os artigos do ICLR estavam em sintonia com os pontos levantados pelos revisores humanos.

Alargando a experiência, a equipa também utilizou o ChatGPT para avaliar várias centenas de artigos ainda não revistos por pares em servidores de pré-impressão.

Recolhendo o feedback de 308 autores em IA e biologia computacional, descobriram que mais de 82% deles consideraram o feedback do ChatGPT geralmente mais benéfico do que algum do feedback anterior que receberam de revisores humanos.

Apesar destes resultados promissores, persistem as preocupações quanto à capacidade da IA para fornecer um feedback matizado e tecnicamente pormenorizado. 

Além disso, o feedback do ChatGPT pode ser imprevisível, com resultados variáveis consoante o conteúdo do estudo.

Zou reconhece estas limitações, referindo que alguns investigadores consideraram o feedback do ChatGPT demasiado vago.

Os investigadores continuam optimistas quanto ao facto de a GPT-4 poder ajudar em parte o trabalho pesado do processo de revisão por pares, assinalando erros e inconsistências mais óbvios. 

Mais informações sobre o estudo

O ChatGPT - especificamente, o modelo GPT-4 - é praticamente eficaz na revisão de estudos científicos e no fornecimento de feedback rápido. 

Mais informações sobre o estudo:

  1. Objetivo: O estudo identifica a dificuldade em obter revisões humanas de alta qualidade pelos pares. O seu objetivo era explorar a utilização de modelos de linguagem de grande dimensão (LLM), como o GPT-4, para fornecer feedback científico sobre manuscritos de investigação. 
  2. Conceção do modelo: Os investigadores criaram um processo automatizado utilizando o GPT-4 para fornecer comentários sobre os PDFs completos de artigos científicos. Este processo foi concebido para avaliar até que ponto o feedback gerado pelo LLM pode complementar ou ajudar os processos de revisão por pares existentes na publicação científica.
  3. Resultados: A qualidade do feedback do GPT-4 foi avaliada através de dois estudos. O primeiro envolveu uma análise retrospetiva, em que o feedback gerado foi comparado com o feedback de revisores humanos sobre 3.096 artigos de 15 revistas da família Nature e 1.709 artigos da conferência de aprendizagem automática ICLR. A sobreposição dos pontos levantados pelo GPT-4 e pelos revisores humanos foi avaliada quantitativamente.
  4. O segundo estudo foi realizado com 308 investigadores de 110 instituições norte-americanas no domínio da IA e da biologia computacional. Estes investigadores forneceram as suas percepções sobre o feedback gerado pelo sistema GPT-4 nos seus próprios artigos. 
  5. Conclusões: Os investigadores encontraram uma sobreposição substancial entre os pontos levantados pelo GPT-4 e pelos revisores humanos e percepções positivas do feedback gerado pela MLM por parte da maioria dos participantes no estudo de utilizadores. Os resultados sugerem que o LLM e o feedback humano podem complementar-se mutuamente, embora também tenham sido identificadas limitações do feedback gerado pelo LLM.

A GPT-4 foi quase de certeza exposta a centenas de milhares de estudos científicos, que contribui provavelmente para a capacidade do modelo de dissecar e criticar com exatidão a investigação, à semelhança dos revisores humanos. 

A IA está cada vez mais ligada aos processos académicos. Recentemente, a Nature inquiriu 1.600 investigadores sobre as suas opiniões relativamente às IA generativas como o ChatGPT e, embora muitos tenham manifestado preocupação com a parcialidade, a maioria admitiu que a sua integração no processo científico é inevitável.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições