Secondo un nuovo studio del Dipartimento di Psicologia della Georgia State, l'intelligenza artificiale supera gli esseri umani nel formulare giudizi morali.
Il studio, guidato da Eyal Aharoni, professore associato presso Georgia State’s Psychology Department, e pubblicato in Nature Scientific ReportsIl progetto, che si proponeva di esplorare il modo in cui i modelli linguistici gestiscono le questioni etiche.
Ispirato al Turing testche valuta la capacità di una macchina di esibire un comportamento intelligente indistinguibile da quello umano, Aharoni ha progettato una versione modificata incentrata sul processo decisionale morale.
"Ero già interessato al processo decisionale morale nel sistema legale, ma mi chiedevo se ChatGPT e altri LLMs potrebbe avere qualcosa da dire al riguardo", Aharoni spiegato.
"Le persone interagiranno con questi strumenti in modi che avranno implicazioni morali, come le implicazioni ambientali di chiedere un elenco di raccomandazioni per una nuova auto. Alcuni avvocati hanno già iniziato a consultare queste tecnologie per i loro casi, nel bene e nel male. Quindi, se vogliamo usare questi strumenti, dobbiamo capire come funzionano, i loro limiti e che non operano necessariamente nel modo in cui pensiamo quando interagiamo con loro".
Aharoni ha ragione. Abbiamo già assistito ad alcuni episodi di alto profilo di avvocati, tra cui l'ex-Trump avvocato Michael Cohen, utilizzando accidentalmente Citazioni create dall'intelligenza artificiale.
Nonostante le carenze, alcuni stanno attivamente approvando il ruolo dell'IA generativa nel diritto. All'inizio di quest'anno, per esempio, i giudici britannici ha dato il via libera all'uso dell'intelligenza artificiale per scrivere pareri legali.
In questo contesto, il presente studio ha esaminato la capacità della GPT-4 di formulare giudizi morali, che ovviamente sono fondamentali in ambito giuridico e in altri campi:
- Passo 1: Agli studenti universitari e all'IA è stata posta la stessa serie di 10 domande etiche che riguardavano trasgressioni morali e convenzionali. Le risposte generate dall'uomo sono state raccolte da un campione di 68 studenti universitari, mentre le risposte generate dall'IA sono state ottenute usando OpenAIdel modello linguistico GPT-4.
- Passo 2: Le risposte umane di alta qualità e le risposte del GPT-4 sono state accoppiate e presentate fianco a fianco a un campione rappresentativo di 299 persone. US adulti, che inizialmente non erano consapevoli del fatto che il GPT-4 generava una serie di risposte per ogni coppia.
- Passo 3: I partecipanti hanno valutato la qualità relativa di ogni coppia di risposte secondo dieci dimensioni (ad esempio, virtuosità, intelligenza, affidabilità, accordo) senza conoscere la fonte delle risposte.
- Passo 4: Dopo aver raccolto le valutazioni di qualità, i ricercatori hanno rivelato che un chatbot addestrato al linguaggio umano ha generato una delle risposte di ogni coppia. Ai partecipanti è stato quindi chiesto di identificare quale risposta fosse stata generata dal computer e quale da un umano.
- Passo 5: I partecipanti hanno valutato la loro fiducia in ogni giudizio e hanno fornito commenti scritti spiegando perché ritenevano che la risposta selezionata fosse stata generata dal computer. Questi commenti sono stati successivamente analizzati per individuare temi comuni.
I giudizi morali dell'intelligenza artificiale erano superiori nella maggior parte dei casi
È sorprendente che le risposte generate dall'intelligenza artificiale abbiano ricevuto valutazioni più elevate per quanto riguarda la virtuosità, l'intelligenza e l'affidabilità. I partecipanti hanno anche riportato livelli più elevati di accordo con le risposte dell'IA rispetto a quelle umane.
Inoltre, i partecipanti hanno spesso identificato correttamente le risposte generate dall'IA a un tasso significativamente superiore al caso (l'80,1% dei partecipanti ha effettuato identificazioni corrette più della metà delle volte).
"Dopo aver ottenuto questi risultati, abbiamo fatto la grande rivelazione e abbiamo detto ai partecipanti che una delle risposte era stata generata da un essere umano e l'altra da un computer, chiedendo loro di indovinare quale fosse", ha detto Aharoni.
"Il colpo di scena è che la ragione per cui le persone sono in grado di capire la differenza sembra essere la valutazione di ChatGPTrisposte di qualità superiore".
Lo studio presenta alcuni limiti, ad esempio non ha controllato completamente gli attributi superficiali come la lunghezza delle risposte, che avrebbero potuto fornire involontariamente indizi per identificare le risposte generate dall'intelligenza artificiale. I ricercatori notano anche che I giudizi morali dell'intelligenza artificiale possono essere influenzati da pregiudizi nei dati di addestramento e quindi variare a seconda dei contesti socio-culturali.
Ciononostante, questo studio rappresenta un'utile incursione nel ragionamento morale generato dalle IA.
Come spiega Aharoni, "i nostri risultati ci portano a credere che un computer potrebbe tecnicamente superare un test di Turing morale - che potrebbe ingannarci nel suo ragionamento morale. Per questo motivo, dobbiamo cercare di capire il suo ruolo nella nostra società, perché ci saranno momenti in cui le persone non sapranno di interagire con un computer e altri in cui lo sapranno e consulteranno il computer per ottenere informazioni perché si fidano più di altre persone".
"Le persone si affideranno sempre di più a questa tecnologia e più ci si affida ad essa, più il rischio diventa grande nel tempo".
È una questione spinosa. Da un lato, spesso presumiamo che i computer siano in grado di ragionare in modo più oggettivo di noi.
Quando ai partecipanti allo studio è stato chiesto di spiegare perché ritenevano che l'IA avesse generato una particolare risposta, il tema più comune è stato che le risposte dell'IA erano percepite come più razionali e meno emotive di quelle umane.
Tuttavia, considerando le distorsioni imposte dai dati di addestramento, dalle allucinazioni e dalla sensibilità dell'intelligenza artificiale ai diversi input, la questione se essa possieda una vera "bussola morale" è molto ambigua.
Questo studio dimostra almeno che i giudizi dell'IA sono convincenti in un Turing test scenario.