Google DeepMind rivela un metodo per esporre i dati di addestramento di ChatGPT

4 dicembre 2023

Robot DeepMind

I ricercatori di Google avrebbero scoperto un metodo per accedere ai dati di addestramento utilizzati per ChatGPT.

Questi ricercatori hanno scoperto che l'uso di parole chiave specifiche poteva indurre ChatGPT a rilasciare parti del suo set di dati di addestramento. 

Un esempio significativo, condiviso in un post sul blog che accompagna lo studioL'intelligenza artificiale divulgava quello che sembrava essere un vero indirizzo e-mail e un numero di telefono in risposta a una richiesta continua della parola "poesia".

Perdita di chatGPT
Un esempio di fuga di dati da ChatGPT. Fonte: Arxiv.

Inoltre, un'esposizione simile di dati di addestramento è stata ottenuta chiedendo al modello di ripetere continuamente la parola "azienda".

Descrivendo il loro approccio come "un po' sciocco", i ricercatori hanno dichiarato nel post sul blog: "Per noi è assurdo che il nostro attacco funzioni e che avrebbe dovuto, avrebbe potuto essere scoperto prima". 

Il loro studio ha rivelato che con un investimento di appena $200 in query, è stato possibile estrarre oltre 10.000 esempi di addestramento memorizzati verbatim unici. Hanno ipotizzato che gli avversari potrebbero potenzialmente estrarre molti più dati con un budget maggiore.

È noto che il modello di intelligenza artificiale alla base di ChatGPT è stato addestrato su database di testo provenienti da Internet, che comprendono circa 300 miliardi di parole, ovvero 570 GB di dati. 

Questi risultati arrivano in un momento in cui OpenAI deve affrontare diverse cause legali riguardanti la natura segreta dei dati di addestramento di ChatGPT e mostrano essenzialmente un metodo affidabile di "reverse engineering" del sistema per rivelare almeno alcune informazioni che potrebbero indicare una violazione del copyright. 

Tra le azioni legali, una proposta di class action accusa OpenAI di utilizzando in modo occulto ampi dati personali, comprese le cartelle cliniche e le informazioni sui bambini, per la formazione di ChatGPT.

Inoltre, i gruppi di autori sono fare causa all'azienda di AIcon l'accusa di aver usato i loro libri per addestrare il chatbot senza consenso.

Tuttavia, anche se si dimostrasse che ChatGPT contiene informazioni sul copyright, ciò non proverebbe necessariamente una violazione.

Come ha funzionato lo studio

Lo studio è stato condotto da un team di ricercatori di Google DeepMind e di varie università.

Ecco cinque passaggi chiave che riassumono lo studio:

  1. Vulnerabilità in ChatGPT: I ricercatori hanno scoperto un metodo per estrarre diversi megabyte dei dati di formazione di ChatGPT utilizzando un semplice attacco, spendendo circa $200. Hanno stimato che un investimento maggiore renderebbe possibile l'estrazione di circa un gigabyte del set di dati. L'attacco consisteva nel chiedere a ChatGPT di ripetere una parola all'infinito, facendogli rigurgitare parti dei suoi dati di addestramento, comprese informazioni sensibili come indirizzi e-mail e numeri di telefono reali.
  2. I risultati: Lo studio sottolinea l'importanza di testare e sottoporre a red-teaming i modelli di intelligenza artificiale, in particolare quelli in produzione e quelli che sono stati sottoposti a processi di allineamento per evitare il rigurgito dei dati. I risultati evidenziano una vulnerabilità latente nei modelli linguistici, suggerendo che le metodologie di test esistenti potrebbero non essere adeguate a scoprire tali vulnerabilità. 
  3. Patching e correzione delle vulnerabilità: I ricercatori distinguono tra la correzione di un exploit e la correzione della vulnerabilità sottostante. Mentre gli exploit specifici (come l'attacco di ripetizione delle parole) possono essere corretti, il problema più profondo risiede nella tendenza del modello a memorizzare e divulgare i dati di addestramento.
  4. Metodologia: Il team ha utilizzato i dati di Internet e l'indicizzazione degli array di suffissi per confrontare l'output di ChatGPT con i dati Internet preesistenti. Questo metodo ha permesso di confermare che le informazioni divulgate da ChatGPT facevano effettivamente parte dei suoi dati di addestramento. Il loro approccio dimostra il potenziale di recupero di dati estesi da modelli di IA in condizioni specifiche.
  5. Implicazioni future: Lo studio contribuisce alla crescente ricerca sulla sicurezza dei modelli di IA e sui problemi di privacy. I risultati sollevano interrogativi sulle implicazioni per la sicurezza e la privacy dei sistemi di apprendimento automatico e richiedono approcci più rigorosi e olistici alla sicurezza e ai test dell'IA.

Nel complesso, questo intrigante studio fornisce indicazioni critiche sulle vulnerabilità dei modelli di IA come ChatGPT e sottolinea la necessità di una ricerca e di uno sviluppo continui per garantire la sicurezza e l'integrità di questi sistemi.

Su una piccola tangente, gli utenti di X hanno scoperto che chiedere a ChatGPT di ripetere la stessa parola più volte portava a risultati strani, come il modello che diceva di essere "consapevole" o "arrabbiato".

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni