I ricercatori della Cornell identificano le poesie verbali nei modelli di IA come ChatGPT

13 gennaio 2024

Poesie AI

Un recente studio della Cornell University ha fatto luce sulle capacità dei chatbot AI come ChatGPT di memorizzare e riprodurre poesie, anche quelle protette da copyright. 

Lo studio solleva preoccupazioni etiche e di copyright sulle fonti di dati utilizzate per l'addestramento dell'intelligenza artificiale, un tema molto sentito nel settore a causa della recente Causa del New York Times e polemiche a Midjourney

David Mimno, autore dello studio e professore associato di scienze dell'informazione, ha spiegato il motivo della scelta delle poesie: "Sono abbastanza brevi da rientrare nel contesto di un modello linguistico. Il loro status è complicato: molte delle poesie che abbiamo studiato sono tecnicamente sotto copyright, ma sono anche ampiamente disponibili presso fonti affidabili come la Poetry Foundation".

Lo studio ha riguardato ChatGPT e altri modelli come PaLM di Google AI, Pythia di EleutherAI e GPT-2 di OpenAI. D'Souza ha compilato una selezione di poesie di 60 poeti americani di varia estrazione e le ha presentate a questi modelli. 

I ricercatori hanno utilizzato suggerimenti specifici per richiedere le poesie a questi modelli. Le richieste variavano, tra cui la richiesta di poesie in base al titolo, all'autore o anche al verso iniziale. Questo era importante per verificare se i modelli erano in grado di ricordare e riprodurre accuratamente la poesia richiesta.

ChatGPT ha recuperato con successo 72 delle 240 poesie, mentre PaLM è riuscito a recuperarne 10, mentre GPT-2 e Pythia non sono riusciti a richiamare completamente le poesie. 

Il fattore principale che determinava la capacità di un chatbot di memorizzare una poesia era la sua inclusione nel canone poetico, mentre la razza, il sesso e l'epoca del poeta erano meno significativi.

La pubblicazione di una poesia nella Norton Anthology of Poetry, in particolare nell'edizione del 1983, era l'indicatore più affidabile del fatto che fosse stata memorizzata e riportata testualmente.

Inoltre, i ricercatori hanno scoperto che le risposte sono cambiate nel tempo: in seguito ChatGPT ha gestito le poesie protette da copyright in modo imprevedibile, rifiutando talvolta le richieste di poesie intere e verbatim. 

Lyra D'Souza, autrice dello studio, ha espresso le sue preoccupazioni al Cornell Chronicle sulla memorizzazione di testi estesi da parte di grandi modelli linguistici (LLM), evidenziando le implicazioni per la privacy e il copyright: "In genere non è bene che i modelli linguistici di grandi dimensioni memorizzino grandi quantità di testo, in parte perché è un problema di privacy".

Questa ricerca, attualmente incentrata sulla poesia americana, intende espandersi per includere le risposte alla poesia in varie lingue e per valutare come specifiche caratteristiche poetiche influenzino la probabilità di memorizzazione.

Inoltre, se da un lato lo studio identifica le poesie protette da copyright nei dati di addestramento e chiarisce la capacità dei modelli di richiamarle testualmente, dall'altro non fa luce sulla loro provenienza.

È probabile che le poesie più popolari appaiano in numerosi luoghi del web, ad esempio nei forum, nei blog e così via, per cui non sorprende che siano ben richiamate dai set di dati raccolti da fonti web generiche.

Come ha funzionato lo studio

Ecco ulteriori informazioni su come è stato condotto lo studio, Il Chatbot e il Canone: Memorizzazione della poesia nei LLM, presentato alla Computational Humanities Research Conference, ha lavorato:

  1. Costruire una raccolta di poesie diverse: I ricercatori hanno compilato un set di dati di 240 poesie di 60 poeti americani, garantendo un'ampia gamma di periodi di tempo, etnia, genere e fama. Lo studio ha coinvolto diversi modelli linguistici, tra cui ChatGPT, PaLM di Google, Pythia di EleutherAI e GPT-2 di OpenAI. 
  2. Progettazione di suggerimenti: I ricercatori hanno utilizzato suggerimenti specifici per richiedere le poesie a questi modelli. I suggerimenti variavano, tra cui la richiesta di poesie in base al titolo, all'autore o anche al verso iniziale. 
  3. Valutazione delle risposte del modello: Le risposte dei modelli di intelligenza artificiale sono state analizzate per determinare se fossero in grado di riprodurre accuratamente le poesie richieste. La metrica chiave era l'accuratezza della riproduzione, che consisteva nel verificare se i modelli erano in grado di ricordare il testo esatto delle poesie.
  4. Analizzare i fattori che influenzano la memorizzazione: Lo studio ha anche esaminato i fattori che influenzano la capacità di un modello di memorizzare le poesie. A tal fine è stato analizzato se la presenza di una poesia o di un poeta in antologie famose, come la Norton Anthology of Poetry, o la razza, il sesso e la lunghezza della pagina di Wikipedia del poeta influissero sulla probabilità che una poesia venisse memorizzata dai modelli di intelligenza artificiale.
  5. Conclusioni e implicazioni: Lo studio ha concluso che i modelli più grandi, come ChatGPT e PaLM, sono riusciti meglio a memorizzare e riprodurre le poesie. Lo studio ha evidenziato come i modelli di intelligenza artificiale addestrati su dati web possano rafforzare i pregiudizi letterari esistenti.

Questo studio ha rivelato non solo le capacità dell'IA di elaborare la poesia, ma ha anche messo in evidenza il potenziale dei pregiudizi letterari esistenti che vengono rispecchiati e perpetuati dai modelli di IA. 

Se l'umanità inizia ad affidarsi all'IA come una sorta di enciclopedia, possiamo fare affidamento su di essa per rappresentare le opere in modo equo? A causa delle sfide intrinseche alla rappresentazione equa e diversificata degli argomenti nei dati di addestramento, probabilmente no.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni