ChatGPT mostra i suoi punti di forza nell'emulazione del processo di revisione paritaria

22 ottobre 2023

Revisione paritaria AI

L'approccio convenzionale alla ricerca scientifica si basa molto sulla peer review, in cui altri scienziati valutano e criticano meticolosamente uno studio prima che venga pubblicato. 

Tuttavia, questo sistema tradizionale è bloccato dal numero crescente di contributi e dalla scarsità di revisori umani disponibili. 

"È sempre più difficile per i ricercatori ottenere un feedback di alta qualità dai revisori", afferma James Zou della Stanford University.

In risposta a questa sfida, Zou e il suo team si è rivolto a ChatGPT per scoprire se il chatbot fosse in grado di fornire un feedback chiaro e obiettivo sui documenti di ricerca. Hanno utilizzato GPT-4 per esaminare oltre 3.000 manoscritti di Nature e più di 1.700 articoli della Conferenza internazionale sulle rappresentazioni dell'apprendimento (ICLR). 

Confrontando il feedback del ChatGPT con quello dei revisori umani sugli stessi articoli, è emerso che più di 50% dei commenti dell'IA sugli articoli di Nature e più di 77% sugli articoli dell'ICLR si allineavano ai punti sollevati dai revisori umani.

Estendendo l'esperimento, il team ha utilizzato ChatGPT anche per valutare diverse centinaia di articoli ancora da revisionare sui server di preprint.

Raccogliendo i feedback di 308 autori di AI e biologia computazionale, hanno scoperto che oltre 82% di loro hanno ritenuto il feedback di ChatGPT generalmente più vantaggioso rispetto ad alcuni feedback ricevuti in passato da revisori umani.

Nonostante questi risultati promettenti, permangono dubbi sulla capacità dell'IA di fornire un feedback sfumato e tecnicamente dettagliato. 

Inoltre, il feedback di ChatGPT può essere imprevedibile, con risultati variabili a seconda del contenuto dello studio.

Zou riconosce questi limiti, notando che alcuni ricercatori hanno trovato il feedback di ChatGPT eccessivamente vago.

I ricercatori sono ottimisti sul fatto che il GPT-4 possa essere d'aiuto in alcune fasi del processo di peer-review, segnalando gli errori e le incongruenze più evidenti. 

Per saperne di più sullo studio

ChatGPT - in particolare, il modello GPT-4 - è praticamente efficace nell'esaminare gli studi scientifici e nel fornire un feedback rapido. 

Ecco ulteriori informazioni sullo studio:

  1. Obiettivo: Lo studio identifica la difficoltà di ottenere revisioni paritarie umane di alta qualità. L'obiettivo è esplorare l'uso di modelli linguistici di grandi dimensioni (LLM) come il GPT-4 per fornire un feedback scientifico sui manoscritti di ricerca. 
  2. Modello di design: I ricercatori hanno creato una pipeline automatizzata utilizzando GPT-4 per fornire commenti sui PDF completi di articoli scientifici. Questa pipeline è stata progettata per valutare quanto il feedback generato da LLM possa integrare o aiutare i processi di peer review esistenti nell'editoria scientifica.
  3. Risultati: La qualità del feedback di GPT-4 è stata valutata attraverso due studi. Il primo ha comportato un'analisi retrospettiva, in cui il feedback generato è stato confrontato con il feedback di revisori umani su 3.096 articoli di 15 riviste della famiglia Nature e 1.709 articoli della conferenza sull'apprendimento automatico ICLR. È stata valutata quantitativamente la sovrapposizione dei punti sollevati dal GPT-4 e dai revisori umani.
  4. Il secondo studio è stato condotto con 308 ricercatori di 110 istituzioni statunitensi nel campo dell'AI e della biologia computazionale. Questi ricercatori hanno fornito le loro percezioni sul feedback generato dal sistema GPT-4 nei loro articoli. 
  5. Conclusioni: I ricercatori hanno riscontrato una sostanziale sovrapposizione tra i punti sollevati dal GPT-4 e dai revisori umani e percezioni positive del feedback generato dal LLM da parte della maggior parte dei partecipanti allo studio sugli utenti. I risultati suggeriscono che il LLM e il feedback umano possono completarsi a vicenda, sebbene siano stati identificati anche i limiti del feedback generato dal LLM.

Il GPT-4 è stato quasi certamente esposto a centinaia di migliaia di studi scientifici, che probabilmente contribuisce alla capacità del modello di analizzare e criticare accuratamente la ricerca in modo simile ai revisori umani. 

L'intelligenza artificiale si sta intrecciando sempre più con i processi accademici. Nature ha recentemente ha intervistato 1.600 ricercatori Le persone che hanno partecipato al sondaggio hanno chiesto le loro opinioni sulle IA generative come ChatGPT e, sebbene molti abbiano sollevato preoccupazioni di pregiudizio, la maggioranza ha ammesso che la loro integrazione nel processo scientifico è inevitabile.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni