A abordagem convencional à investigação científica baseia-se fortemente na revisão por pares, em que outros cientistas avaliam e criticam meticulosamente um estudo antes de este ser publicado.
No entanto, este sistema tradicional está a sofrer um estrangulamento devido ao número crescente de submissões e à escassez de revisores humanos disponíveis.
"Está a tornar-se cada vez mais difícil para os investigadores obterem feedback de alta qualidade dos revisores", afirma James Zou, da Universidade de Stanford.
Em resposta a este desafio, Zou e a sua equipa virou-se para o ChatGPT para descobrir se o chatbot podia dar um feedback claro e objetivo sobre artigos de investigação. Utilizaram o GPT-4 para analisar mais de 3000 manuscritos da Nature e mais de 1700 artigos da Conferência Internacional sobre Representações de Aprendizagem (ICLR).
Ao comparar o feedback do ChatGPT com o dos revisores humanos sobre os mesmos artigos, verificaram que mais de 50% dos comentários da IA sobre os artigos da Nature e mais de 77% sobre os artigos do ICLR estavam em sintonia com os pontos levantados pelos revisores humanos.
Alargando a experiência, a equipa também utilizou o ChatGPT para avaliar várias centenas de artigos ainda não revistos por pares em servidores de pré-impressão.
Recolhendo o feedback de 308 autores em IA e biologia computacional, descobriram que mais de 82% deles consideraram o feedback do ChatGPT geralmente mais benéfico do que algum do feedback anterior que receberam de revisores humanos.
Apesar destes resultados promissores, persistem as preocupações quanto à capacidade da IA para fornecer um feedback matizado e tecnicamente pormenorizado.
Além disso, o feedback do ChatGPT pode ser imprevisível, com resultados variáveis consoante o conteúdo do estudo.
Zou reconhece estas limitações, referindo que alguns investigadores consideraram o feedback do ChatGPT demasiado vago.
Os investigadores continuam optimistas quanto ao facto de a GPT-4 poder ajudar em parte o trabalho pesado do processo de revisão por pares, assinalando erros e inconsistências mais óbvios.
Mais informações sobre o estudo
O ChatGPT - especificamente, o modelo GPT-4 - é praticamente eficaz na revisão de estudos científicos e no fornecimento de feedback rápido.
Mais informações sobre o estudo:
- Objetivo: O estudo identifica a dificuldade em obter revisões humanas de alta qualidade pelos pares. O seu objetivo era explorar a utilização de modelos de linguagem de grande dimensão (LLM), como o GPT-4, para fornecer feedback científico sobre manuscritos de investigação.
- Conceção do modelo: Os investigadores criaram um processo automatizado utilizando o GPT-4 para fornecer comentários sobre os PDFs completos de artigos científicos. Este processo foi concebido para avaliar até que ponto o feedback gerado pelo LLM pode complementar ou ajudar os processos de revisão por pares existentes na publicação científica.
- Resultados: A qualidade do feedback do GPT-4 foi avaliada através de dois estudos. O primeiro envolveu uma análise retrospetiva, em que o feedback gerado foi comparado com o feedback de revisores humanos sobre 3.096 artigos de 15 revistas da família Nature e 1.709 artigos da conferência de aprendizagem automática ICLR. A sobreposição dos pontos levantados pelo GPT-4 e pelos revisores humanos foi avaliada quantitativamente.
- O segundo estudo foi realizado com 308 investigadores de 110 instituições norte-americanas no domínio da IA e da biologia computacional. Estes investigadores forneceram as suas percepções sobre o feedback gerado pelo sistema GPT-4 nos seus próprios artigos.
- Conclusões: Os investigadores encontraram uma sobreposição substancial entre os pontos levantados pelo GPT-4 e pelos revisores humanos e percepções positivas do feedback gerado pela MLM por parte da maioria dos participantes no estudo de utilizadores. Os resultados sugerem que o LLM e o feedback humano podem complementar-se mutuamente, embora também tenham sido identificadas limitações do feedback gerado pelo LLM.
A GPT-4 foi quase de certeza exposta a centenas de milhares de estudos científicos, que contribui provavelmente para a capacidade do modelo de dissecar e criticar com exatidão a investigação, à semelhança dos revisores humanos.
A IA está cada vez mais ligada aos processos académicos. Recentemente, a Nature inquiriu 1.600 investigadores sobre as suas opiniões relativamente às IA generativas como o ChatGPT e, embora muitos tenham manifestado preocupação com a parcialidade, a maioria admitiu que a sua integração no processo científico é inevitável.