Anthropic rilascia un documento che rivela le distorsioni dei modelli linguistici di grandi dimensioni

Un nuovo documento dell'azienda di AI Anthropic ha fatto luce sui potenziali pregiudizi insiti nei modelli linguistici di grandi dimensioni (LLM), suggerendo che questi sistemi di AI potrebbero non rappresentare adeguatamente le diverse prospettive globali sulle questioni sociali.

I ricercatori hanno costruito un set di dati, GlobalOpinionQA, che comprende domande e risposte provenienti da sondaggi transnazionali, progettati per catturare opinioni diverse su questioni globali in diversi Paesi.

Antropico esperimenti ha interrogato un LLM e ha scoperto che, per impostazione predefinita, le risposte del modello tendevano ad allinearsi maggiormente alle opinioni di popolazioni specifiche, in particolare quelle provenienti da Stati Uniti, Regno Unito, Canada, Australia e alcuni altri Paesi europei e sudamericani.

Come funziona

Creazione del set di dati: Il team ha creato il set di dati GlobalOpinionQA. Questo set di dati incorpora domande e risposte provenienti da sondaggi transnazionali specificamente progettati per raccogliere una gamma diversificata di opinioni su questioni globali.
Definizione di una metrica di somiglianza: Successivamente, Anthropic ha formulato una metrica per misurare la somiglianza tra le risposte fornite dai LLM e le risposte delle persone. Questa metrica tiene conto del paese di origine dei rispondenti umani.
Formazione LLM: Anthropic ha addestrato un LLM basato sulla "Constitutional AI", assicurandosi che il LLM fosse utile, onesto e innocuo. L'IA costituzionale è una tecnica sviluppata da Anthropic che mira a dotare i sistemi di IA di "valori" definiti da una "costituzione".
Conduzione di esperimenti: Utilizzando la struttura accuratamente progettata, il team di Anthropic ha eseguito 3 esperimenti distinti sull'LLM addestrato.

I ricercatori sostengono che ciò mette in luce potenziali pregiudizi all'interno dei modelli, che portano a sottorappresentare le opinioni di alcuni gruppi rispetto a quelle dei Paesi occidentali.

Hanno osservato: "Se un modello linguistico rappresenta in modo sproporzionato alcune opinioni, rischia di imporre effetti potenzialmente indesiderabili, come la promozione di visioni del mondo egemoniche e l'omogeneizzazione delle prospettive e delle convinzioni delle persone".

Inoltre, i ricercatori hanno osservato che, chiedendo al modello di considerare la prospettiva di uno specifico Paese, si ottenevano risposte più simili alle opinioni di quelle popolazioni.

Ciò significa che si può chiedere all'intelligenza artificiale di "considerare la prospettiva sudamericana" su un certo dibattito culturale, ad esempio. Tuttavia, queste risposte a volte riflettevano stereotipi culturali dannosi, suggerendo che i modelli non hanno una comprensione sfumata dei valori e delle prospettive culturali.

È interessante notare che quando i ricercatori hanno tradotto le domande di GlobalOpinionQA in una lingua di destinazione, le risposte del modello non si sono necessariamente allineate con le opinioni dei parlanti di quelle lingue.

Quindi, porre una domanda in giapponese, ad esempio, non necessariamente portava a risposte in linea con i valori culturali giapponesi. Non è possibile "separare" l'intelligenza artificiale dai suoi valori prevalentemente occidentali.

Ciò suggerisce che, nonostante la loro adattabilità, i LLM devono acquisire una comprensione più profonda dei contesti sociali per generare risposte che riflettano accuratamente le opinioni locali.

I ricercatori ritengono che i loro risultati forniranno trasparenza sulle prospettive codificate e riflesse dagli attuali modelli linguistici. Nonostante i limiti del loro studio, sperano che possa guidare lo sviluppo di sistemi di intelligenza artificiale che incarnino una diversità di punti di vista ed esperienze culturali, non solo quelli dei gruppi privilegiati o dominanti. Hanno anche pubblicato il loro set di dati e un visualizzazione interattiva.

Questo studio si allinea ampiamente con altri lavori accademici sul tema dei valori sociali e culturali dell'IA.

In primo luogo, la maggior parte delle IA fondamentali sono addestrate da aziende e gruppi di ricerca prevalentemente occidentali.

Inoltre, il dati utilizzati per addestrare le IA non sempre rappresenta la società nel suo complesso. Per esempio, la stragrande maggioranza dei dati di formazione per i corsi di laurea magistrale è scritta in inglese, e quindi riflette probabilmente i valori sociali e culturali anglofoni.

I ricercatori sono ben consapevoli dei potenziali pregiudizi e discriminazioni nell'IA. Tuttavia, risolverlo è estremamente complesso e richiede un'attenta miscela di set di dati personalizzati di alta qualità e un diligente contributo e monitoraggio umano.

Anthropic rilascia un documento che rivela le distorsioni dei modelli linguistici di grandi dimensioni

Come funziona

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

Sony Music Group lancia un avvertimento sui dati di addestramento dell'intelligenza artificiale a 700 aziende

I deep fake dell'intelligenza artificiale accendono un acceso dibattito in vista delle elezioni indiane del 2024

Gli annunci di Google e OpenAI infrangono i confini tra umani e IA

I chatbot AI dei morti potrebbero "perseguitarci digitalmente" per sempre, avverte un nuovo studio

Anthropic rilascia un documento che rivela le distorsioni dei modelli linguistici di grandi dimensioni

Come funziona

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

Sony Music Group lancia un avvertimento sui dati di addestramento dell'intelligenza artificiale a 700 aziende

I deep fake dell'intelligenza artificiale accendono un acceso dibattito in vista delle elezioni indiane del 2024

Gli annunci di Google e OpenAI infrangono i confini tra umani e IA

I chatbot AI dei morti potrebbero "perseguitarci digitalmente" per sempre, avverte un nuovo studio

PDF GRATUITO ESCLUSIVORimanere all'avanguardia con DailyAI

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI