Der herkömmliche Ansatz in der wissenschaftlichen Forschung stützt sich stark auf das Peer-Review-Verfahren, bei dem andere Wissenschaftler eine Studie akribisch bewerten und kritisieren, bevor sie veröffentlicht wird.
Dieses herkömmliche System ist jedoch aufgrund der steigenden Zahl von Einreichungen und der Knappheit an verfügbaren Gutachtern an seine Grenzen gestoßen.
"Es wird für Forscher immer schwieriger, qualitativ hochwertiges Feedback von Gutachtern zu erhalten", sagt James Zou von der Stanford University.
Um dieser Herausforderung zu begegnen, haben Zou und sein Team wandte sich an ChatGPT um herauszufinden, ob der Chatbot klares, objektives Feedback zu Forschungsarbeiten liefern kann. Sie verwendeten GPT-4, um über 3.000 Manuskripte aus Nature und mehr als 1.700 Papiere der International Conference on Learning Representations (ICLR) zu überprüfen.
Beim Vergleich des ChatGPT-Feedbacks mit dem von menschlichen Gutachtern zu denselben Papieren stellten sie fest, dass über 50% der KI-Kommentare zu den Nature-Papieren und mehr als 77% zu den ICLR-Papieren mit den von menschlichen Gutachtern angesprochenen Punkten übereinstimmten.
In Erweiterung des Experiments verwendete das Team ChatGPT auch, um mehrere hundert noch nicht begutachtete Artikel auf Preprint-Servern zu bewerten.
Sie sammelten das Feedback von 308 Autoren aus den Bereichen KI und Computerbiologie und fanden heraus, dass über 82% von ihnen das Feedback von ChatGPT im Allgemeinen als vorteilhafter empfanden als einige der früheren Rückmeldungen, die sie von menschlichen Gutachtern erhalten hatten.
Trotz dieser vielversprechenden Ergebnisse bestehen weiterhin Bedenken hinsichtlich der Fähigkeit der KI, nuanciertes und technisch detailliertes Feedback zu geben.
Außerdem kann das Feedback von ChatGPT unvorhersehbar sein und je nach Inhalt der Studie zu unterschiedlichen Ergebnissen führen.
Zou räumt diese Einschränkungen ein und stellt fest, dass einige Forscher das Feedback von ChatGPT als zu vage empfanden.
Die Forscher blieben optimistisch, dass GPT-4 bei einigen der schweren Aufgaben des Peer-Review-Prozesses helfen kann, indem es offensichtlichere Fehler und Ungereimtheiten aufzeigt.
Mehr über die Studie
ChatGPT - insbesondere das GPT-4-Modell - ist praktisch wirksam bei der Überprüfung wissenschaftlicher Studien und der Bereitstellung von schnellem Feedback.
Hier finden Sie weitere Informationen über die Studie:
- Zielsetzung: Die Studie zeigt auf, wie schwierig es ist, qualitativ hochwertige menschliche Peer-Reviews zu erhalten. Sie zielte darauf ab, die Verwendung von großen Sprachmodellen (LLMs) wie GPT-4 zu untersuchen, um wissenschaftliches Feedback zu Forschungsmanuskripten zu geben.
- Musterentwurf: Die Forscher haben eine automatisierte Pipeline entwickelt, die GPT-4 verwendet, um Kommentare zu den vollständigen PDF-Dateien wissenschaftlicher Arbeiten abzugeben. Diese Pipeline wurde entwickelt, um zu bewerten, wie gut LLM-generiertes Feedback die bestehenden Peer-Review-Prozesse bei wissenschaftlichen Veröffentlichungen ergänzen oder unterstützen kann.
- Ergebnisse: Die Qualität des Feedbacks von GPT-4 wurde in zwei Studien bewertet. Die erste umfasste eine retrospektive Analyse, bei der das generierte Feedback mit dem Feedback menschlicher Peer-Reviewer zu 3.096 Beiträgen aus 15 Zeitschriften der Nature-Familie und 1.709 Beiträgen der ICLR-Konferenz zum maschinellen Lernen verglichen wurde. Die Überschneidungen bei den von GPT-4 und menschlichen Gutachtern angesprochenen Punkten wurden quantitativ bewertet.
- Die zweite Studie wurde mit 308 Forschern aus 110 US-Institutionen aus den Bereichen KI und Computerbiologie durchgeführt. Diese Forscher gaben ihre Meinung zu dem vom GPT-4-System erzeugten Feedback in ihren eigenen Arbeiten ab.
- Schlussfolgerungen: Die Forscher fanden erhebliche Überschneidungen zwischen den von GPT-4 und menschlichen Gutachtern angesprochenen Punkten und eine positive Wahrnehmung des LLM-generierten Feedbacks durch die meisten Teilnehmer der Nutzerstudie. Die Ergebnisse deuten darauf hin, dass LLM und menschliches Feedback sich gegenseitig ergänzen können, obwohl auch Einschränkungen des LLM-generierten Feedbacks festgestellt wurden.
GPT-4 war mit ziemlicher Sicherheit Hunderttausenden von wissenschaftlichen Studien ausgesetzt, die trägt wahrscheinlich zur Fähigkeit des Modells bei, Forschungsarbeiten ähnlich wie menschliche Peer-Reviewer genau zu analysieren und zu kritisieren.
KI wird zunehmend mit akademischen Prozessen verwoben. Natur kürzlich befragte 1.600 Forscher über ihre Meinung zu generativen KI wie ChatGPT befragt, und obwohl viele Bedenken wegen Voreingenommenheit äußerten, räumte die Mehrheit ein, dass ihre Integration in den wissenschaftlichen Prozess unvermeidlich ist.