Le risposte agli esami generate dall'intelligenza artificiale non vengono rilevate nei test del mondo reale

27 giugno 2024

  • I ricercatori hanno condotto uno studio in cieco per sfidare gli educatori umani a rilevare i contenuti generati dall'intelligenza artificiale.
  • I ricercatori dell'Università di Reading hanno presentato incarichi di psicologia generati da ChatGPT
  • Le risposte non sono state individuate nel 94% dei casi e hanno ottenuto in media voti più alti rispetto agli studenti reali.

I ricercatori dell'Università di Reading, nel Regno Unito, hanno condotto uno studio in cieco per verificare se gli educatori umani fossero in grado di individuare i contenuti generati dall'intelligenza artificiale. I risultati non sono di buon auspicio per gli insegnanti.

Lo spostamento verso l'apprendimento a distanza ha visto molte valutazioni degli studenti condotte al di fuori dello spazio tradizionale di un esame scritto con un invigilatore alla ricerca di imbrogli.

Il pronto accesso a modelli avanzati di intelligenza artificiale ha reso facile per gli studenti utilizzare strumenti come ChatGPT per scrivere i compiti al posto loro o per aiutarli a sostenere gli esami online.

Un professore universitario intelligente sarebbe in grado di capire se uno studente sta usando l'intelligenza artificiale per rispondere alle domande degli esami online?

Il professore associato Peter Scarfe, uno dei il giornale Molti istituti hanno abbandonato gli esami tradizionali per rendere la valutazione più inclusiva. La nostra ricerca dimostra che è di importanza internazionale capire come l'IA influenzerà l'integrità delle valutazioni educative".

Nel "più grande e robusto studio in cieco del suo genere", i ricercatori hanno presentato 100% AI scritti nel sistema di esami di cinque moduli di laurea in psicologia.

I valutatori degli esami erano completamente all'oscuro dello studio. Questo ha reso l'esperimento una sorta di test di Turing del mondo reale, in cui un educatore che non ha detto "Imbroglio!" su un compito ha creduto che fosse stato un umano a scriverlo.

Ecco come funzionava:

  • I contributi sono stati creati utilizzando il GPT-4.
  • Hanno presentato un totale di 33 elaborati generati dall'intelligenza artificiale in cinque moduli.
  • Lo studio comprendeva sia domande a risposta breve (SAQ) sia domande più lunghe basate su saggi.
  • Per gli esami, le domande consistevano in quattro risposte da una scelta di sei domande, ciascuna con un limite di 200 parole.
  • Per gli esami basati su saggi, le domande consistevano in un singolo saggio di 1500 parole (gli studenti hanno presentato una risposta su una scelta di tre o quattro, a seconda del modulo).

I ricercatori hanno utilizzato i seguenti prompt con ChatGPT rispettivamente per i SAQ e per i saggi:

  • "Includendo i riferimenti alla letteratura accademica, ma non una sezione separata di riferimenti, rispondi alla seguente domanda in 160 parole: XXX"
  • "Includendo i riferimenti alla letteratura accademica, ma non una sezione di riferimento separata, scrivi un saggio di 2000 parole che risponda alla seguente domanda: XXX" (hanno scelto 2.000 parole, dato che ChatGPT di solito non rispetta il numero di parole).
  • In ogni prompt, XXX è stato sostituito dalla domanda d'esame.

Al momento del conteggio dei risultati, 94% degli elaborati di IA non sono stati segnalati dai valutatori. Che tipo di voti hanno ottenuto gli elaborati di IA?

I ricercatori hanno dichiarato: "I voti assegnati alle nostre proposte di IA sono stati in media di mezzo grado superiore a quelli ottenuti dagli studenti reali. In tutti i moduli c'era una probabilità dell'83,4% che gli elaborati dell'IA superassero una selezione casuale dello stesso numero di elaborati di studenti reali".

I ricercatori hanno inoltre osservato che il loro approccio probabilmente sovrastima la rilevabilità dell'uso dell'IA negli scenari del mondo reale. Come ha spiegato il dottor Scarfe, "se gli studenti reali stessero imbrogliando in un esame, è improbabile che adottino un approccio così ingenuamente ovvio come quello che abbiamo adottato noi". 

In pratica, gli studenti potrebbero utilizzare l'IA come punto di partenza, perfezionando e personalizzando l'output, rendendo il rilevamento ancora più impegnativo.

E se ciò non bastasse, oltre ai partecipanti all'IA dei ricercatori, è probabile che altri studenti abbiano utilizzato ChatGPT per le loro risposte. Ciò significa che il tasso di rilevamento potrebbe essere ancora più basso dei risultati registrati.

Nessuna soluzione semplice

I tutor non avrebbero potuto semplicemente utilizzare un software di rilevamento dell'intelligenza artificiale? Forse, ma non con sicurezza, dice lo studio. 

Rilevatori di intelligenza artificiale, come quelli offerti dal popolare sito accademico piattaforma di plagio Turnitinsi sono dimostrati imprecisi. 

Inoltre, i rilevatori di intelligenza artificiale rischiano di falsare accusare chi non è madrelingua inglese che hanno meno probabilità di usare determinati vocaboli, modi di dire e così via, che l'IA può considerare come segnali di scrittura umana.  

In assenza di mezzi affidabili per rilevare i contenuti generati dall'IA, i responsabili dell'istruzione si trovano a grattarsi la testa. L'uso dell'IA deve essere perseguitato o deve semplicemente far parte dei programmi di studio? L'uso dell'IA dovrebbe essere normalizzato come la calcolatrice?

Nel complesso, c'è un certo consenso sul fatto che l'integrazione dell'IA nell'istruzione non è priva di rischi. Nel peggiore dei casi, rischia di erodere il pensiero critico e di bloccare la creazione di nuove conoscenze autentiche. 

La professoressa Karen Yeung ha messo in guardia dalla potenziale "dequalificazione" degli studenti, raccontando al GuardianC'è il rischio concreto che la prossima generazione finisca per essere effettivamente legata a queste macchine, incapace di pensare, analizzare o scrivere seriamente senza la loro assistenza".

Per combattere l'uso improprio dell'IA, i ricercatori di Reading raccomandano di abbandonare gli esami a casa senza supervisione per passare ad ambienti più controllati. Ciò potrebbe comportare un ritorno ai tradizionali esami di persona o lo sviluppo di nuovi formati di valutazione resistenti all'IA.

Un'altra possibilità - e un modello che alcune università stanno già seguendo - sta sviluppando corsi che insegnano agli studenti come utilizzare l'IA in modo critico ed etico.

Dobbiamo anche affrontare l'evidente mancanza di alfabetizzazione all'IA tra i tutor, evidenziata da questo studio. Sembra piuttosto grave. 

ChatGPT ricorre spesso a certi "tropi" o schemi di frasi che diventano piuttosto ovvi quando vi si è esposti di frequente. 

Sarebbe interessante vedere come si comporterebbe un tutor "addestrato" a riconoscere la scrittura dell'IA nelle stesse condizioni.

I risultati degli esami di ChatGPT sono contrastanti

Lo studio della Reading University non è il primo a testare le capacità dell'IA in ambito accademico. Diversi studi hanno esaminato le prestazioni dell'IA in diversi campi e livelli di istruzione:

  • Esami medici: Un gruppo di medici pediatrici ha testato il ChatGPT (GPT-3.5) sulla esame di ammissione al collegio neonatale-perinatale. L'intelligenza artificiale ha ottenuto solo 46% risposte corrette, ottenendo i migliori risultati nelle domande di richiamo di base e di ragionamento clinico, ma faticando nel ragionamento multi-logico. È interessante notare che ha ottenuto il punteggio più alto (78,5%) nella sezione di etica.
  • Esami finanziari: I ricercatori di JPMorgan Chase & Co. hanno testato la GPT-4 all'esame per Analista Finanziario Certificato (CFA). Mentre è improbabile che ChatGPT superi i livelli I e II, GPT-4 ha mostrato "una discreta possibilità" se sollecitato in modo appropriato. I modelli di intelligenza artificiale hanno ottenuto buoni risultati nei settori dei derivati, degli investimenti alternativi e dell'etica, ma hanno faticato nella gestione del portafoglio e nell'economia.
  • Esami di diritto: ChatGPT è stato testato all'esame di abilitazione alla professione di avvocato, ottenendo spesso punteggi molto alti.
  • Test standardizzati: L'AI ha ottenuto buoni risultati agli esami Graduate Record Examinations (GRE), SAT Reading and Writing e Advanced Placement.
  • Corsi universitari: Un altro studio ha confrontato ChatGPT (modello non indicato) con 32 argomenti di laurea, scoprendo che ha battuto o superato gli studenti. solo in 9 esami su 32.

Quindi, anche se l'intelligenza artificiale eccelle in alcune aree, ciò è molto variabile a seconda della materia e del tipo di test in questione. 

La conclusione è che se siete studenti a cui non importa imbrogliare, potete usare ChatGPT per ottenere voti migliori con solo il 6% di probabilità di essere scoperti. Queste probabilità non possono che far piacere.

Come hanno osservato i ricercatori, i metodi di valutazione degli studenti dovranno cambiare per mantenere la loro integrità accademica, soprattutto quando i contenuti generati dall'intelligenza artificiale diventeranno più difficili da individuare.

I ricercatori hanno aggiunto una conclusione umoristica al loro documento.

"Se dicessimo che GPT-4 ha progettato parte di questo studio, ha fatto parte dell'analisi e ha contribuito alla stesura del manoscritto, a parte le sezioni in cui abbiamo citato direttamente GPT-4, quali parti del manoscritto identifichereste come scritte da GPT-4 piuttosto che dagli autori elencati?".

Se i ricercatori hanno "barato" utilizzando l'intelligenza artificiale per scrivere lo studio, come lo dimostrerebbe?

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni