De conventionele benadering van wetenschappelijk onderzoek leunt zwaar op peer review, waarbij andere wetenschappers een onderzoek nauwgezet evalueren en bekritiseren voordat het gepubliceerd wordt.
Dit traditionele systeem ondervindt echter knelpunten door het stijgende aantal inzendingen en de schaarste aan beschikbare menselijke beoordelaars.
"Het wordt steeds moeilijker voor onderzoekers om feedback van hoge kwaliteit te krijgen van beoordelaars," zegt James Zou van Stanford University.
Als antwoord op deze uitdaging hebben Zou en zijn team wendde zich tot ChatGPT om te ontdekken of de chatbot duidelijke, objectieve feedback kon geven op onderzoekspapers. Ze gebruikten GPT-4 om meer dan 3000 manuscripten van Nature en meer dan 1700 papers van de International Conference on Learning Representations (ICLR) te beoordelen.
Bij het vergelijken van de feedback van ChatGPT met die van menselijke reviewers op dezelfde papers, ontdekten ze dat meer dan 50% van het commentaar van de AI op de Nature papers en meer dan 77% op de ICLR papers overeenkwamen met de punten die door menselijke reviewers naar voren waren gebracht.
Het team breidde het experiment uit en gebruikte ChatGPT ook om honderden nog te beoordelen papers op preprint servers te beoordelen.
Ze verzamelden feedback van 308 auteurs op het gebied van AI en computationele biologie en ontdekten dat meer dan 82% van hen de feedback van ChatGPT over het algemeen nuttiger vonden dan sommige feedback die ze in het verleden van menselijke beoordelaars hadden gekregen.
Ondanks deze veelbelovende resultaten blijven er zorgen bestaan over het vermogen van de AI om genuanceerde en technisch gedetailleerde feedback te geven.
Bovendien kan de feedback van ChatGPT onvoorspelbaar zijn, met variabele resultaten afhankelijk van de inhoud van het onderzoek.
Zou erkent deze beperkingen en merkt op dat sommige onderzoekers de feedback van ChatGPT te vaag vonden.
De onderzoekers bleven optimistisch over het feit dat GPT-4 kan helpen bij het zware werk van het peer-review proces, door meer voor de hand liggende fouten en inconsistenties te signaleren.
Meer over het onderzoek
ChatGPT - specifiek het GPT-4 model - is praktisch effectief in het beoordelen van wetenschappelijke studies en het geven van snelle feedback.
Hier vind je meer over het onderzoek:
- Doel: De studie identificeert de moeilijkheid om menselijke peer reviews van hoge kwaliteit te verkrijgen. Het doel was om het gebruik van grote taalmodellen (LLM's) zoals GPT-4 te onderzoeken om wetenschappelijke feedback te geven op onderzoeksmanuscripten.
- Modelontwerp: De onderzoekers creëerden een geautomatiseerde pijplijn met GPT-4 om commentaar te geven op de volledige PDF's van wetenschappelijke artikelen. Deze pijplijn is ontworpen om te beoordelen hoe goed LLM-gegenereerde feedback de bestaande peer review-processen in wetenschappelijke publicaties kan aanvullen of ondersteunen.
- Resultaten: De kwaliteit van de feedback van GPT-4 werd geëvalueerd aan de hand van twee onderzoeken. De eerste betrof een retrospectieve analyse, waarbij de gegenereerde feedback werd vergeleken met de feedback van menselijke peer reviewers op 3.096 papers uit 15 tijdschriften van de Nature familie en 1.709 papers van de ICLR machine learning conferentie. De overlap in de punten die door GPT-4 en menselijke beoordelaars naar voren werden gebracht, werd kwantitatief beoordeeld.
- De tweede studie werd uitgevoerd onder 308 onderzoekers van 110 Amerikaanse instellingen op het gebied van AI en computationele biologie. Deze onderzoekers gaven hun mening over de feedback die het GPT-4 systeem genereerde in hun eigen artikelen.
- Conclusies: De onderzoekers vonden een aanzienlijke overlap tussen de punten die werden genoemd door GPT-4 en menselijke beoordelaars en positieve percepties van de door LLM gegenereerde feedback van de meeste deelnemers aan het gebruikersonderzoek. De resultaten suggereren dat LLM en menselijke feedback elkaar kunnen aanvullen, hoewel er ook beperkingen van de LLM-gegenereerde feedback werden vastgesteld.
GPT-4 is vrijwel zeker blootgesteld aan honderdduizenden wetenschappelijke onderzoeken, die draagt waarschijnlijk bij aan het vermogen van het model om onderzoek nauwkeurig te ontleden en te bekritiseren, net als menselijke peer reviewers.
AI raakt steeds meer verweven met academische processen. Onlangs verscheen in Nature 1.600 onderzoekers ondervraagd naar hun mening over generatieve AI's zoals ChatGPT, en hoewel velen hun bezorgdheid over vooringenomenheid uitten, gaf de meerderheid toe dat de integratie ervan in het wetenschappelijke proces onvermijdelijk is.