ChatGPT montre des points forts dans l'émulation du processus d'évaluation par les pairs

22 octobre 2023

Examen par les pairs AI

L'approche conventionnelle de la recherche scientifique s'appuie fortement sur l'examen par les pairs, où d'autres scientifiques évaluent et critiquent méticuleusement une étude avant qu'elle ne soit publiée. 

Toutefois, ce système traditionnel se heurte à des goulets d'étranglement en raison du nombre croissant de soumissions et de la pénurie d'évaluateurs humains disponibles. 

"Il est de plus en plus difficile pour les chercheurs d'obtenir un retour d'information de qualité de la part des évaluateurs", explique James Zou, de l'université de Stanford.

Pour relever ce défi, Zou et son équipe ont tourné vers ChatGPT afin de déterminer si le chatbot pouvait fournir un retour d'information clair et objectif sur les articles de recherche. Ils ont utilisé GPT-4 pour examiner plus de 3 000 manuscrits de Nature et plus de 1 700 articles de la Conférence internationale sur les représentations de l'apprentissage (ICLR). 

En comparant les commentaires du ChatGPT à ceux des évaluateurs humains sur les mêmes articles, ils ont constaté que plus de 50% des commentaires de l'IA sur les articles de Nature et plus de 77% sur les articles de l'ICLR s'alignaient sur les points soulevés par les évaluateurs humains.

En élargissant l'expérience, l'équipe a également utilisé ChatGPT pour évaluer plusieurs centaines d'articles qui n'ont pas encore été examinés par des pairs et qui se trouvent sur des serveurs de préimpression.

En recueillant les commentaires de 308 auteurs dans le domaine de l'IA et de la biologie informatique, ils ont constaté que plus de 82% d'entre eux considéraient que les commentaires de ChatGPT étaient généralement plus bénéfiques que certains des commentaires qu'ils avaient reçus par le passé de la part d'évaluateurs humains.

Malgré ces résultats prometteurs, des inquiétudes subsistent quant à la capacité de l'IA à fournir un retour d'information nuancé et techniquement détaillé. 

De plus, le retour d'information de ChatGPT peut être imprévisible, avec des résultats variables selon le contenu de l'étude.

Zou reconnaît ces limites, notant que certains chercheurs ont trouvé le retour d'information de ChatGPT trop vague.

Les chercheurs sont restés optimistes quant à la capacité du GPT-4 à faciliter le processus d'évaluation par les pairs, en signalant les erreurs et les incohérences les plus évidentes. 

En savoir plus sur l'étude

ChatGPT - en particulier le modèle GPT-4 - est pratiquement efficace pour examiner les études scientifiques et fournir un retour d'information rapide. 

Voici plus d'informations sur l'étude :

  1. Objectif: L'étude met en évidence la difficulté d'obtenir des évaluations de haute qualité par des pairs humains. Elle visait à explorer l'utilisation de grands modèles de langage (LLM) tels que GPT-4 pour fournir un retour d'information scientifique sur les manuscrits de recherche. 
  2. Modèle de conception: Les chercheurs ont créé un pipeline automatisé utilisant GPT-4 pour fournir des commentaires sur les PDF complets d'articles scientifiques. Ce pipeline est conçu pour évaluer dans quelle mesure les commentaires générés par LLM peuvent compléter ou aider les processus d'examen par les pairs existants dans l'édition scientifique.
  3. Résultats: La qualité du retour d'information de GPT-4 a été évaluée au moyen de deux études. La première consistait en une analyse rétrospective, dans laquelle les commentaires générés ont été comparés aux commentaires d'évaluateurs humains sur 3 096 articles provenant de 15 revues de la famille Nature et 1 709 articles provenant de la conférence sur l'apprentissage automatique de l'ICLR. Le chevauchement des points soulevés par le GPT-4 et les évaluateurs humains a fait l'objet d'une évaluation quantitative.
  4. La seconde étude a été menée auprès de 308 chercheurs de 110 institutions américaines dans le domaine de l'IA et de la biologie computationnelle. Ces chercheurs ont donné leur avis sur le retour d'information généré par le système GPT-4 dans leurs propres articles. 
  5. Conclusions: Les chercheurs ont constaté un chevauchement important entre les points soulevés par le GPT-4 et les réviseurs humains, ainsi que des perceptions positives du retour d'information généré par le LLM de la part de la plupart des participants à l'étude sur les utilisateurs. Les résultats suggèrent que le LLM et le feedback humain peuvent se compléter, bien que des limitations du feedback généré par le LLM aient également été identifiées.

Le GPT-4 a très certainement fait l'objet de centaines de milliers d'études scientifiques, ce qui a eu pour effet d'augmenter les coûts de production. contribue probablement à la capacité du modèle à disséquer et à critiquer la recherche avec précision, de la même manière que les pairs évaluateurs humains. 

L'IA est de plus en plus imbriquée dans les processus académiques. Nature a récemment a interrogé 1 600 chercheurs sur leurs opinions concernant les IA génératives telles que ChatGPT, et bien que beaucoup aient exprimé des craintes de partialité, la majorité a admis que leur intégration dans le processus scientifique était inévitable.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation