Den konventionelle tilgang til videnskabelig forskning er i høj grad afhængig af peer review, hvor andre forskere omhyggeligt evaluerer og kritiserer en undersøgelse, før den bliver offentliggjort.
Men dette traditionelle system er en flaskehals på grund af det stigende antal indsendelser og manglen på tilgængelige menneskelige bedømmere.
"Det bliver sværere og sværere for forskere at få feedback af høj kvalitet fra bedømmere", siger James Zou fra Stanford University.
Som svar på denne udfordring har Zou og hans team vendte sig til ChatGPT for at finde ud af, om chatbotten kunne levere klar, objektiv feedback på forskningsartikler. De brugte GPT-4 til at gennemgå over 3.000 manuskripter fra Nature og mere end 1.700 artikler fra International Conference on Learning Representations (ICLR).
Da de sammenlignede ChatGPT's feedback med menneskelige anmelderes feedback på de samme artikler, fandt de ud af, at over 50% af AI'ens kommentarer til Nature-artiklerne og mere end 77% til ICLR-artiklerne stemte overens med de punkter, der blev rejst af de menneskelige anmeldere.
I forlængelse af eksperimentet brugte teamet også ChatGPT til at vurdere flere hundrede endnu ikke peer-reviewede artikler på preprint-servere.
Ved at indsamle feedback fra 308 forfattere inden for AI og beregningsbiologi fandt de ud af, at over 82% af dem mente, at ChatGPT's feedback generelt var mere gavnlig end noget af den feedback, de tidligere havde fået fra menneskelige bedømmere.
På trods af disse lovende resultater er der stadig bekymring for AI'ens evne til at give nuanceret og teknisk detaljeret feedback.
Desuden kan ChatGPT's feedback være uforudsigelig med varierende resultater afhængigt af undersøgelsens indhold.
Zou anerkender disse begrænsninger og bemærker, at nogle forskere fandt ChatGPT's feedback alt for vag.
Forskerne forblev optimistiske med hensyn til, at GPT-4 kan hjælpe med nogle af de tunge løft i peer-review-processen ved at påpege mere åbenlyse fejl og uoverensstemmelser.
Mere om undersøgelsen
ChatGPT - specifikt GPT-4-modellen - er praktisk talt effektiv til at gennemgå videnskabelige undersøgelser og give hurtig feedback.
Her er mere om undersøgelsen:
- Målsætning: Undersøgelsen identificerer vanskeligheden ved at opnå menneskelige peer reviews af høj kvalitet. Det havde til formål at undersøge brugen af store sprogmodeller (LLM'er) som GPT-4 til at give videnskabelig feedback på forskningsmanuskripter.
- Model design: Forskerne skabte en automatiseret pipeline ved hjælp af GPT-4 til at give kommentarer til de fulde PDF'er af videnskabelige artikler. Denne pipeline er designet til at vurdere, hvor godt LLM-genereret feedback kan supplere eller hjælpe de eksisterende peer review-processer inden for videnskabelig publicering.
- Resultater: Kvaliteten af GPT-4's feedback blev evalueret gennem to undersøgelser. Den første involverede en retrospektiv analyse, hvor den genererede feedback blev sammenlignet med menneskelig peer reviewer-feedback på 3.096 artikler fra 15 Nature-familietidsskrifter og 1.709 artikler fra ICLR-maskinlæringskonferencen. Overlapningen i de punkter, der blev rejst af GPT-4 og menneskelige bedømmere, blev vurderet kvantitativt.
- Den anden undersøgelse blev gennemført med 308 forskere fra 110 amerikanske institutioner inden for AI og beregningsbiologi. Disse forskere gav deres opfattelse af den feedback, der blev genereret af GPT-4-systemet i deres egne artikler.
- Konklusioner: Forskerne fandt betydelig overlapning mellem de punkter, der blev rejst af GPT-4 og menneskelige bedømmere, og positive opfattelser af den LLM-genererede feedback fra de fleste deltagere i brugerundersøgelsen. Resultaterne tyder på, at LLM og menneskelig feedback kan supplere hinanden, selvom der også blev identificeret begrænsninger i den LLM-genererede feedback.
GPT-4 blev næsten helt sikkert udsat for hundredtusindvis af videnskabelige undersøgelser, som bidrager sandsynligvis til modellens evne til præcist at dissekere og kritisere forskning på samme måde som menneskelige fagfællebedømmere.
AI bliver i stigende grad flettet sammen med akademiske processer. Nature har for nylig undersøgte 1.600 forskere om deres mening om generativ AI som ChatGPT, og mens mange udtrykte bekymring for bias, indrømmede flertallet, at dens integration i den videnskabelige proces er uundgåelig.