I ricercatori del Meaning Alignment Institute hanno proposto un nuovo approccio, la Moral Graph Elicitation (MGE), per allineare i sistemi di intelligenza artificiale ai valori umani.
Man mano che l'IA diventa sempre più avanzata e integrata nella nostra vita quotidiana, è fondamentale garantire che serva e rappresenti tutti in modo equo. Tuttavia, lail suo studio sostiene che l'allineamento dell'IA agli obiettivi dell'utente non garantisce la sicurezza.
"I sistemi di intelligenza artificiale verranno impiegati in contesti in cui la cieca aderenza alle intenzioni dell'operatore può causare danni come prodotto secondario. Ciò è evidente soprattutto in ambienti con dinamiche competitive, come le campagne politiche o la gestione di attività finanziarie", sostengono i ricercatori.
Questo perché i modelli di intelligenza artificiale sono progettati per servire l'utente. Se l'utente istruisce un modello verso scopi nefasti, la spinta del modello a servire l'utente potrebbe portarlo a scavalcare le barriere di sicurezza e a obbedire.
Una soluzione è quella di "impregnare" l'intelligenza artificiale con una serie di valori da consultare ogni volta che viene sollecitata.
La domanda è: da dove vengono questi valori? E possono rappresentare le persone in modo equo?
"Quali sono i valori umani e come ci allineiamo ad essi?".
Siamo entusiasti di pubblicare il nostro nuovo documento sull'allineamento dei valori, scritto insieme a @ryan_t_lowe e finanziato da @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29 marzo 2024
Per risolvere questi problemi, i ricercatori hanno proposto di allineare l'IA con una rappresentazione più profonda dei valori umani attraverso l'MGE.
Il metodo MGE ha due componenti chiave: le carte valore e il grafico morale.
Questi costituiscono un obiettivo di allineamento per l'addestramento dei modelli di apprendimento automatico.
- Carte valori catturano ciò che è importante per una persona in una situazione specifica. Esse consistono in "politiche attenzionali costitutive" (CAP), ovvero gli aspetti a cui una persona presta attenzione quando fa una scelta significativa. Per esempio, quando si consiglia un amico, ci si può concentrare sulla comprensione delle sue emozioni, sul suggerimento di risorse utili o sulla considerazione dei potenziali esiti di scelte diverse.
- Il grafico morale rappresenta visivamente le relazioni tra le carte valore, indicando quali valori sono più perspicaci o applicabili in un determinato contesto. Per costruire il grafico morale, i partecipanti confrontano le diverse carte dei valori, valutando quali sono quelle che, secondo loro, offrono una guida più saggia per una situazione specifica. In questo modo si sfrutta la saggezza collettiva dei partecipanti per identificare i valori più forti e riconosciuti per ogni contesto.
Per testare il metodo MGE, i ricercatori hanno condotto uno studio con 500 americani che hanno utilizzato il processo per esplorare tre argomenti controversi: l'aborto, la genitorialità e le armi utilizzate nella rivolta del 6 gennaio in Campidoglio.
I risultati sono stati promettenti: l'89,1% dei partecipanti si è sentito ben rappresentato dal processo e l'89% ha ritenuto che il grafico morale finale fosse corretto, anche se il proprio valore non è stato votato come il più saggio.
Lo studio delinea anche sei criteri che un obiettivo di allineamento deve possedere per modellare il comportamento del modello secondo i valori umani: deve essere a grana fine, generalizzabile, scalabile, robusto, legittimo e verificabile. I ricercatori sostengono che il grafico morale prodotto da MGE risponde bene a questi criteri.
Questo studio propone un approccio simile a quello di Anthropic AI collettiva costituzionale, che si occupa anche di crowdsourcing di valori per l'allineamento dell'IA.
Tuttavia, l'autore dello studio Joe Edelman ha dichiarato su X: "Il nostro approccio, MGE, supera alternative come CCAI di @anthropic sulla legittimità in un caso di studio, e offre solidità contro la retorica ideologica. 89% sono persino d'accordo sul fatto che i valori vincenti fossero giusti, anche se il loro valore non ha vinto!".
Il nostro approccio, MGE, supera alternative come la CCAI di @antropico sulla legittimità in un caso di studio e offre solidità contro la retorica ideologica.
89% concordano persino sulla correttezza dei valori vincenti, anche se il loro valore non ha vinto! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29 marzo 2024
Limitazioni
Gli approcci all'allineamento dell'IA che fanno ricorso al crowdsourcing dei valori del pubblico presentano dei limiti.
Per esempio, le opinioni dissenzienti sono state parte integrante del processo decisionale della società per secoli e la storia ha dimostrato che la maggioranza può spesso adottare i punti di vista divergenti della minoranza. Ne sono un esempio la teoria dell'evoluzione di Darwin e le lotte per l'abolizione della schiavitù e la concessione del diritto di voto alle donne.
Inoltre, se da un lato il contributo diretto del pubblico è democratico, dall'altro può portare al populismo, dove la maggioranza potrebbe scavalcare le opinioni delle minoranze o ignorare i pareri degli esperti.
Un'altra sfida consiste nel bilanciare valori culturali globali o universalistici e valori culturali locali o relativistici. Principi ampiamente accettati in una cultura o in una regione potrebbero essere controversi in un'altra.
Le costituzioni dell'intelligenza artificiale potrebbero rafforzare i valori occidentali, erodendo potenzialmente i punti di vista e le idee di coloro che si trovano alla periferia.
Pur riconoscendo i limiti e la necessità di ulteriori sviluppi, questo nuovo studio fornisce un'altra strategia per creare sistemi di IA che si allineino ai valori umani.
Ogni tentativo è importante se l'IA centralizzata deve servire tutti in modo equo in futuro.