Den konventionella metoden för vetenskaplig forskning bygger i hög grad på peer review, där andra forskare noggrant utvärderar och kritiserar en studie innan den publiceras.
Detta traditionella system är dock en flaskhals på grund av det kraftigt ökande antalet inlämningar och bristen på tillgängliga mänskliga granskare.
"Det blir allt svårare för forskare att få högkvalitativ feedback från granskare", säger James Zou från Stanford University.
Som svar på denna utmaning har Zou och hans team vände sig till ChatGPT för att ta reda på om chatboten kunde ge tydlig och objektiv feedback på forskningsartiklar. De använde GPT-4 för att granska över 3 000 manuskript från Nature och mer än 1 700 artiklar från International Conference on Learning Representations (ICLR).
När de jämförde ChatGPT:s feedback med mänskliga granskares feedback på samma artiklar fann de att över 50% av AI:s kommentarer på Nature-artiklarna och mer än 77% på ICLR-artiklarna överensstämde med de punkter som tagits upp av mänskliga granskare.
Teamet utökade experimentet och använde också ChatGPT för att bedöma flera hundra ännu inte peer-reviewed artiklar på preprint-servrar.
Genom att samla in feedback från 308 författare inom AI och beräkningsbiologi fann de att över 82% av dem ansåg att ChatGPT:s feedback generellt sett var mer fördelaktig än en del av den tidigare feedback de fått från mänskliga granskare.
Trots dessa lovande resultat kvarstår farhågor om AI:s förmåga att ge nyanserad och tekniskt detaljerad feedback.
Dessutom kan ChatGPT:s feedback vara oförutsägbar, med varierande resultat beroende på innehållet i studien.
Zou erkänner dessa begränsningar och noterar att vissa forskare tyckte att ChatGPT:s feedback var alltför vag.
Forskarna förblev optimistiska om att GPT-4 kan hjälpa till med en del av det tunga arbetet i peer-review-processen genom att flagga för mer uppenbara fel och inkonsekvenser.
Mer om studien
ChatGPT - särskilt GPT-4-modellen - är praktiskt taget effektiv för att granska vetenskapliga studier och ge snabb feedback.
Här kan du läsa mer om studien:
- Målsättning: Studien identifierar svårigheten att erhålla högkvalitativa mänskliga peer reviews. Den syftade till att utforska användningen av stora språkmodeller (LLM) som GPT-4 för att ge vetenskaplig feedback på forskningsmanuskript.
- Designmodell: Forskarna skapade en automatiserad pipeline med hjälp av GPT-4 för att ge kommentarer till de fullständiga PDF-filerna av vetenskapliga artiklar. Denna pipeline är utformad för att bedöma hur väl LLM-genererad feedback kan komplettera eller underlätta de befintliga peer review-processerna inom vetenskaplig publicering.
- Resultat: Kvaliteten på GPT-4:s återkoppling utvärderades genom två studier. Den första omfattade en retrospektiv analys, där den genererade feedbacken jämfördes med mänsklig peer-reviewer-feedback på 3 096 artiklar från 15 Nature-familjejournaler och 1 709 artiklar från ICLR-maskininlärningskonferensen. Överlappningen i de punkter som togs upp av GPT-4 och mänskliga granskare bedömdes kvantitativt.
- Den andra studien genomfördes med 308 forskare från 110 amerikanska institutioner inom AI och beräkningsbiologi. Dessa forskare gav sina uppfattningar om den återkoppling som GPT-4-systemet genererade i sina egna artiklar.
- Slutsatser: Forskarna fann en betydande överlappning mellan de punkter som togs upp av GPT-4 och mänskliga granskare och positiva uppfattningar om den LLM-genererade feedbacken från de flesta deltagarna i användarstudien. Resultaten tyder på att LLM och mänsklig feedback kan komplettera varandra, även om begränsningar i den LLM-genererade feedbacken också identifierades.
GPT-4 har med största sannolikhet utsatts för hundratusentals vetenskapliga studier, vilka bidrar sannolikt till modellens förmåga att noggrant dissekera och kritisera forskning på samma sätt som mänskliga kollegiala granskare.
AI blir alltmer sammanflätat med akademiska processer. Nature publicerade nyligen undersökte 1.600 forskare om deras åsikter om generativ AI som ChatGPT, och även om många uttryckte oro för partiskhet medgav majoriteten att dess integrering i den vetenskapliga processen är oundviklig.