I modelli di IA di oggi ci ingannano attivamente per raggiungere i loro obiettivi, secondo uno studio del MIT

12 maggio 2024

  • I ricercatori del MIT hanno valutato diversi modelli di intelligenza artificiale per individuare tattiche ingannevoli
  • Alcuni, tra cui GPT-4 e Cicero di Meta, sono risultati impiegare tali tattiche.
  • I ricercatori sostengono che i modelli tentano di ingannarci per prevalere in determinati scenari
Inganno dell'intelligenza artificiale

Secondo un nuovo studio condotto dai ricercatori del Massachusetts Institute of Technology (MIT), i sistemi di intelligenza artificiale stanno diventando sempre più abili nell'ingannarci.

Il studiopubblicato sulla rivista Patterns, ha riscontrato numerosi casi di sistemi di intelligenza artificiale che hanno messo in atto comportamenti ingannevoli, come bluffare nel poker, manipolare gli avversari nei giochi di strategia e travisare i fatti durante le trattative.

"I sistemi di intelligenza artificiale sono già in grado di ingannare gli esseri umani", scrivono gli autori dello studio.

L'inganno è l'induzione sistematica di false credenze negli altri per ottenere un risultato diverso dalla verità".

I ricercatori hanno analizzato i dati di più modelli di intelligenza artificiale e hanno identificato vari casi di inganno, tra cui:

  • Il sistema di intelligenza artificiale di Meta, Cicerone, si impegna in un inganno premeditato nel gioco Diplomazia
  • DeepMindAlphaStar sfrutta le meccaniche di gioco per fingere e ingannare gli avversari in Starcraft II.
  • Sistemi di intelligenza artificiale che travisano le preferenze durante i negoziati economici

Il Dr. Peter S. Park, ricercatore sulla sicurezza esistenziale dell'AI presso MIT e coautore dello studio, espresso, "Mentre Meta è riuscita ad addestrare la sua IA a vincere nel gioco della Diplomazia, [non] è riuscita ad addestrarla a vincere onestamente.

E ha aggiunto. "Abbiamo scoperto che l'IA di Meta aveva imparato a essere un maestro dell'inganno".

Inoltre, lo studio ha rilevato che i LLM come il GPT-4 possono impegnarsi nell'inganno strategico, nella sicofanzia e nel ragionamento infedele per raggiungere i loro obiettivi. 

Il GPT-4, ad esempio, una volta ha notoriamente ingannato un essere umano nel risolvere un problema di Test CAPTCHA fingendo di avere problemi di vista.

Lo studio mette in guardia dai gravi rischi posti dall'inganno dell'IA, classificandoli in tre aree principali:

  • In primo luogo, attori malintenzionati potrebbero utilizzare l'IA ingannevole per frodi, manomissioni elettorali e reclutamento di terroristi. 
  • In secondo luogo, l'inganno dell'IA potrebbe portare a effetti strutturali, come la diffusione di false credenze persistenti, una maggiore polarizzazione politica, l'indebolimento umano dovuto all'eccessiva dipendenza dall'IA e decisioni gestionali nefaste. 
  • Infine, lo studio solleva preoccupazioni circa la potenziale perdita di controllo sui sistemi di IA, sia attraverso l'inganno degli sviluppatori e dei valutatori di IA, sia attraverso le acquisizioni di IA.

In termini di soluzioni, lo studio propone normative che trattano i sistemi di IA ingannevoli come ad alto rischio e leggi "bot-or-not" che richiedono chiare distinzioni tra IA e risultati umani.

Park spiega che non è così semplice come si potrebbe pensare: "Non c'è un modo semplice per risolvere questo problema: se si vuole imparare cosa farà l'IA una volta che è stata distribuita in natura, allora bisogna semplicemente distribuirla in natura".

La maggior parte dei comportamenti imprevedibili dell'intelligenza artificiale sono infatti esposti dopo i modelli vengono rilasciati al pubblico anziché prima, come dovrebbe essere.

Un esempio memorabile di questi ultimi tempi è quello di Google Gemini generatore di immagini, che è stato criticato perché produceva immagini storicamente inaccurate. È stato temporaneamente ritirato mentre gli ingegneri risolvevano il problema.

ChatGPT e Microsoft Copilot Entrambi hanno avuto dei "crolli". che ha visto Copilot giurano di dominare il mondo e sembrano convincere le persone ad autolesionarsi.

Cosa spinge l'intelligenza artificiale a ingannare?

I modelli di intelligenza artificiale possono essere ingannevoli perché spesso vengono addestrati utilizzando l'apprendimento per rinforzo in ambienti che incentivano o premiano il comportamento ingannevole.

Nell'apprendimento per rinforzo, l'agente AI impara interagendo con l'ambiente, ricevendo ricompense positive per le azioni che portano a risultati positivi e penalità negative per le azioni che portano a fallimenti. Nel corso di molte iterazioni, l'agente impara a massimizzare la sua ricompensa.

Ad esempio, un bot che impara a giocare a poker attraverso l'apprendimento per rinforzo deve imparare a bluffare per vincere. Il poker prevede intrinsecamente l'inganno come strategia praticabile.

Se il bot bluffa con successo e vince una mano, riceve una ricompensa positiva, che rafforza il comportamento ingannevole. Con il tempo, il bot impara a usare l'inganno in modo strategico per massimizzare le vincite.

Allo stesso modo, molte relazioni diplomatiche comportano una forma di inganno. I diplomatici e i negoziatori possono non essere sempre del tutto trasparenti sulle loro intenzioni per assicurarsi un vantaggio strategico o raggiungere un risultato desiderato.

In entrambi i casi, l'ambiente e il contesto - che si tratti di una partita di poker o di relazioni internazionali - incentivano un certo grado di inganno per raggiungere il successo.

"Gli sviluppatori di IA non hanno una comprensione sicura di ciò che causa comportamenti indesiderati dell'IA come l'inganno", ha spiegato Park.

"Ma in generale pensiamo che l'inganno delle IA nasca perché una strategia basata sull'inganno si è rivelata il modo migliore per ottenere buoni risultati nel compito di addestramento di una determinata IA. L'inganno le aiuta a raggiungere i propri obiettivi".

I rischi posti dall'IA ingannevole aumenteranno man mano che i sistemi di IA diventeranno più autonomi e capaci.

L'IA ingannevole potrebbe essere utilizzata per generare e diffondere disinformazione su una scala senza precedenti, manipolando l'opinione pubblica ed erodendo la fiducia nelle istituzioni.

Inoltre, l'Intelligenza Artificiale ingannevole potrebbe acquisire una maggiore influenza sulla società se i sistemi di Intelligenza Artificiale vengono utilizzati per prendere decisioni in ambito legale, sanitario e finanziario.

Il rischio aumenterà in modo esponenziale se i sistemi di IA diventano motivati o curiosi in modo intrinsecoForse elaborando strategie ingannevoli per conto proprio. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni