Den konvensjonelle tilnærmingen til vitenskapelig forskning er i stor grad basert på fagfellevurdering, der andre forskere nøye vurderer og kritiserer en studie før den blir publisert.
Dette tradisjonelle systemet er imidlertid i ferd med å bli en flaskehals på grunn av det økende antallet innsendte bidrag og mangelen på tilgjengelige menneskelige bedømmere.
"Det blir vanskeligere og vanskeligere for forskere å få tilbakemeldinger av høy kvalitet fra fagfeller", sier James Zou fra Stanford University.
Som svar på denne utfordringen har Zou og teamet hans henvendte seg til ChatGPT for å finne ut om chatboten kunne gi klare, objektive tilbakemeldinger på forskningsartikler. De brukte GPT-4 til å gjennomgå over 3000 manuskripter fra Nature og mer enn 1700 artikler fra International Conference on Learning Representations (ICLR).
Ved å sammenligne ChatGPTs tilbakemeldinger med tilbakemeldinger fra menneskelige anmeldere på de samme artiklene fant de at over 50% av AI-kommentarene på Nature-artiklene og mer enn 77% på ICLR-artiklene stemte overens med punktene som ble tatt opp av menneskelige anmeldere.
Teamet utvidet eksperimentet ved å bruke ChatGPT til å vurdere flere hundre ennå ikke fagfellevurderte artikler på preprint-servere.
De samlet inn tilbakemeldinger fra 308 forfattere innen AI og beregningsbiologi, og fant at over 82% av dem mente at ChatGPTs tilbakemeldinger generelt var mer fordelaktige enn noen av de tidligere tilbakemeldingene de hadde fått fra menneskelige korrekturlesere.
Til tross for disse lovende resultatene, er det fortsatt usikkerhet knyttet til AI-enes evne til å gi nyanserte og teknisk detaljerte tilbakemeldinger.
ChatGPTs tilbakemeldinger kan dessuten være uforutsigbare, med varierende resultater avhengig av innholdet i undersøkelsen.
Zou erkjenner disse begrensningene, og bemerker at noen forskere mente at ChatGPTs tilbakemeldinger var for vage.
Forskerne var optimistiske med tanke på at GPT-4 kan hjelpe til med noe av det tunge arbeidet i fagfellevurderingsprosessen, ved å påpeke mer åpenbare feil og uoverensstemmelser.
Mer om studien
ChatGPT - nærmere bestemt GPT-4-modellen - er praktisk talt effektiv når det gjelder å gjennomgå vitenskapelige studier og gi raske tilbakemeldinger.
Her kan du lese mer om studien:
- Målsetting: Studien viser at det er vanskelig å få tak i menneskelige fagfellevurderinger av høy kvalitet. Målet var å utforske bruken av store språkmodeller (LLM-er) som GPT-4 for å gi vitenskapelige tilbakemeldinger på forskningsmanuskripter.
- Modelldesign: Forskerne laget en automatisert pipeline ved hjelp av GPT-4 for å gi kommentarer til fullstendige PDF-filer av vitenskapelige artikler. Denne pipelinen er utformet for å vurdere hvor godt LLM-genererte tilbakemeldinger kan supplere eller hjelpe de eksisterende fagfellevurderingsprosessene i vitenskapelig publisering.
- Resultater: Kvaliteten på GPT-4s tilbakemeldinger ble evaluert gjennom to studier. Den første involverte en retrospektiv analyse, der de genererte tilbakemeldingene ble sammenlignet med tilbakemeldinger fra menneskelige fagfeller på 3096 artikler fra 15 tidsskrifter i Nature-familien og 1709 artikler fra ICLR-konferansen om maskinlæring. Overlappingen i punktene som ble tatt opp av GPT-4 og menneskelige fagfeller, ble vurdert kvantitativt.
- Den andre studien ble gjennomført med 308 forskere fra 110 amerikanske institusjoner innen kunstig intelligens og beregningsbiologi. Disse forskerne ga sin oppfatning av tilbakemeldingene som GPT-4-systemet genererte i deres egne artikler.
- Konklusjoner: Forskerne fant betydelig overlapping mellom punktene som ble tatt opp av GPT-4 og menneskelige korrekturlesere, og de fleste deltakerne i brukerstudien hadde en positiv oppfatning av den LLM-genererte tilbakemeldingen. Resultatene tyder på at LLM og menneskelige tilbakemeldinger kan utfylle hverandre, selv om det også ble identifisert begrensninger ved de LLM-genererte tilbakemeldingene.
GPT-4 ble helt sikkert utsatt for hundretusener av vitenskapelige studier, noe som bidrar sannsynligvis til modellens evne til å analysere og kritisere forskning på samme måte som menneskelige fagfellevurderere.
Kunstig intelligens blir stadig mer sammenvevd med akademiske prosesser. Nature nylig undersøkte 1 600 forskere om hva de mente om generativ AI som ChatGPT, og selv om mange uttrykte bekymring for partiskhet, innrømmet de fleste at det er uunngåelig å integrere dette i den vitenskapelige prosessen.