Un nuovo studio pubblicato su Nature rivela che i modelli di intelligenza artificiale, compresi i modelli linguistici di grandi dimensioni (LLM), degradano rapidamente in qualità quando vengono addestrati su dati generati da modelli di intelligenza artificiale precedenti.
Questo fenomeno, definito "collasso del modello", potrebbe erodere la qualità dei futuri modelli di IA, in particolare man mano che un numero maggiore di contenuti generati dall'IA viene diffuso su Internet e, quindi, riciclato e riutilizzato nei dati di addestramento dei modelli.
Per studiare questo fenomeno, i ricercatori dell'Università di Cambridge, dell'Università di Oxford e di altre istituzioni esperimenti condotti dimostrando che quando i modelli di intelligenza artificiale vengono ripetutamente addestrati su dati prodotti da versioni precedenti di loro stessi, iniziano a generare risultati senza senso.
Ciò è stato osservato in diversi tipi di modelli di intelligenza artificiale, tra cui modelli linguistici, autoencoder variazionali e modelli a miscela gaussiana.
In un esperimento chiave con i modelli linguistici, il team ha messo a punto il modello OPT-125m sul set di dati WikiText-2 e poi lo ha usato per generare nuovo testo.
Il testo generato dall'intelligenza artificiale è stato poi utilizzato per addestrare la successiva "generazione" del modello e il processo è stato ripetuto più volte.
Non passò molto tempo prima che i modelli iniziassero a produrre testi sempre più improbabili e insensati.
Alla nona generazione, il modello generava un'assoluta incomprensione, ad esempio elencando diversi tipi inesistenti di "jackrabbit" quando gli veniva chiesto di parlare dei campanili delle chiese inglesi.
I ricercatori hanno anche osservato come i modelli perdano informazioni su eventi "rari" o poco frequenti prima del collasso completo.
Si tratta di un dato allarmante, poiché gli eventi rari sono spesso legati a gruppi emarginati o a fenomeni anomali. Senza di essi, i modelli rischiano di concentrare le loro risposte su uno spettro ristretto di idee e convinzioni, rafforzando così i pregiudizi.
Le aziende di intelligenza artificiale ne sono consapevoli e per questo motivo stanno stringendo accordi con le aziende giornalistiche e gli editori per assicurarsi un flusso costante di informazioni di alta qualità, scritte dall'uomo e rilevanti dal punto di vista topico.
"Il messaggio è che dobbiamo stare molto attenti a ciò che finisce nei nostri dati di formazione". studio il coautore Zakhar Shumaylov dell'Università di Cambridge ha detto a Nature. "Altrimenti, le cose andranno sempre, e provabilmente, male".
Ad aggravare questo effetto, un recente studio del Dr. Richard Fletcher, direttore della ricerca presso il Reuters Institute for the Study of Journalism, ha rilevato che quasi la metà (48%) dei siti di notizie più popolari in tutto il mondo sono ora inaccessibili ai crawler di OpenAI, mentre i crawler dell'AI di Google sono bloccati da 24% di siti.
Di conseguenza, i modelli di IA hanno accesso a un pool di dati recenti e di alta qualità più ridotto rispetto a un tempo, aumentando il rischio di addestramento su dati inferiori alla norma o obsoleti.
Soluzioni per il collasso del modello
Per quanto riguarda le soluzioni, i ricercatori affermano che mantenere l'accesso a fonti di dati originali e generate dall'uomo è fondamentale per il futuro dell'IA.
Tracciare e gestire i contenuti generati dall'IA sarebbe utile anche per evitare che contaminino accidentalmente i dataset di formazione. Sarebbe molto difficile, dato che i contenuti generati dall'IA stanno diventando impossibili da individuare.
I ricercatori propongono quattro soluzioni principali:
- Filigrana dei contenuti generati dall'IA per distinguerli dai dati creati dall'uomo
- Creare incentivi per gli esseri umani a continuare a produrre contenuti di alta qualità
- Sviluppare metodi più sofisticati di filtraggio e curatela per i dati di formazione.
- Esplorare i modi per preservare e dare priorità all'accesso alle informazioni originali, non generate dall'intelligenza artificiale.
Il collasso dei modelli è un problema reale
Questo studio non è l'unico a esplorare il collasso dei modelli.
Non molto tempo fa, i ricercatori di Stanford confronto tra due scenari in cui potrebbe verificarsi il collasso del modello: uno in cui i dati di addestramento di ogni nuova iterazione del modello sostituiscono completamente i dati precedenti e un altro in cui i dati sintetici vengono aggiunti al dataset esistente.
Quando i dati sono stati sostituiti, le prestazioni del modello sono peggiorate rapidamente in tutte le architetture testate.
Tuttavia, quando i dati sono stati lasciati "accumulare", il collasso del modello è stato ampiamente evitato. I sistemi di intelligenza artificiale hanno mantenuto le loro prestazioni e, in alcuni casi, hanno mostrato miglioramenti.
Quindi, nonostante le preoccupazioni credibili, il collasso del modello non è una conclusione scontata: dipende dalla quantità di dati generati dall'IA presenti nel set e dal rapporto tra dati sintetici e autentici.
Se e quando il collasso del modello comincerà ad essere evidente nei modelli di frontiera, potete star certi che le aziende di IA si daranno da fare per trovare una soluzione a lungo termine.
Non ci siamo ancora, ma potrebbe essere una questione di quando, non di se.