Sistemi di intelligenza artificiale generativa, allucinazioni e debiti tecnici crescenti

Man mano che i sistemi di intelligenza artificiale come i modelli linguistici di grandi dimensioni (LLM) crescono in dimensioni e complessità, i ricercatori stanno scoprendo intriganti limiti fondamentali.

Recenti studi condotti da Google e dall'Università di Singapore hanno svelato i meccanismi alla base delle "allucinazioni" dell'IA - in cui i modelli generano informazioni convincenti ma inventate - e dell'accumulo di "debito tecnico", che potrebbe creare sistemi disordinati e inaffidabili nel tempo.

Al di là delle sfide tecniche, l'allineamento delle capacità e degli incentivi dell'IA ai valori umani rimane una questione aperta.

Mentre aziende come OpenAI si spingono verso l'intelligenza artificiale generale (AGI), assicurare il percorso futuro significa riconoscere i limiti dei sistemi attuali.

Tuttavia, riconoscere attentamente i rischi è antitetico al motto della Silicon Valley di "muoversi velocemente e rompere le cose", che caratterizza la R&S sull'IA come le innovazioni tecnologiche precedenti.

Studio 1: i modelli di intelligenza artificiale stanno accumulando "debito tecnico".

L'apprendimento automatico viene spesso pubblicizzato come continuamente scalabile, con sistemi che offrono un quadro modulare e integrato per lo sviluppo.

Tuttavia, in background, gli sviluppatori potrebbero accumulare un alto livello di "debito tecnico" che dovranno risolvere in seguito.

In un Documento di ricerca su Google, "Machine Learning: The High-Interest Credit Card of Technical Debt", i ricercatori discutono il concetto di debito tecnico nel contesto dei sistemi di ML.

L'amministratore delegato di Kaggle e ricercatore di lunga data di Google, D. Sculley, e i suoi colleghi sostengono che, sebbene il ML offra strumenti potenti per costruire rapidamente sistemi complessi, questi "successi rapidi" sono spesso fuorvianti.

La semplicità e la velocità di implementazione dei modelli di ML possono mascherare gli oneri futuri che impongono alla manutenibilità e all'evoluzione del sistema.

Come descrivono gli autori, questo debito nascosto deriva da diversi fattori di rischio specifici di ML che gli sviluppatori dovrebbero evitare o rifattorizzare.

Ecco i dati principali:

I sistemi ML, per loro natura, introducono un livello di complessità superiore alla sola codifica. Questo può portare a quella che gli autori chiamano "erosione dei confini", in cui le linee chiare tra i diversi componenti del sistema si confondono a causa delle interdipendenze create dai modelli di ML. Ciò rende difficile isolare e implementare miglioramenti senza influenzare altre parti del sistema.
Il documento evidenzia anche il problema dell'"entanglement", per cui le modifiche a qualsiasi parte di un sistema di ML, come le caratteristiche di input o i parametri del modello, possono avere effetti imprevedibili sul resto del sistema. L'alterazione di un piccolo parametro può innescare una cascata di effetti che si ripercuotono sul funzionamento e sull'integrità dell'intero modello.
Un altro problema è la creazione di "anelli di feedback nascosti", in cui i modelli di ML influenzano i propri dati di addestramento in modi imprevisti. Questo può portare a sistemi che si evolvono in direzioni non volute, aggravando la difficoltà di gestire e comprendere il comportamento del sistema.
Gli autori si occupano anche delle "dipendenze dai dati", ad esempio quando i segnali di ingresso cambiano nel tempo, che sono particolarmente problematiche in quanto più difficili da rilevare.

Perché il debito tecnico è importante

Il debito tecnico riguarda la salute e l'efficienza a lungo termine dei sistemi di ML.

Quando gli sviluppatori si affrettano a mettere in funzione i sistemi di ML, possono ignorare le complessità della gestione dei dati o le insidie dell'incollare insieme parti diverse.

Questo può funzionare a breve termine, ma può portare a un groviglio difficile da analizzare, aggiornare o anche solo capire in seguito.

⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️

GenAI è una valanga di debito tecnico* in attesa di essere affrontato

Proprio questa settimana
👉ChatGPT è andato "fuori di testa" senza quasi nessuna spiegazione reale
👉Sora non è in grado di dedurre in modo coerente quante zampe ha un gatto
👉L'intervento sulla diversità di Gemini è andato completamente a vuoto.... pic.twitter.com/qzrVlpX9yz

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 24 febbraio 2024

Ad esempio, l'uso di modelli ML così come sono da una libreria sembra efficiente, finché non ci si ritrova con un incubo di "codice colla", in cui la maggior parte del sistema è solo nastro adesivo che tiene insieme pezzi che non erano destinati a stare insieme.

Oppure si pensi alle "giungle di oleodotti", descritte in una precedente documento di D. Sculley e colleghi, dove la preparazione dei dati diventa un labirinto di processi intrecciati, per cui apportare un cambiamento sembra come disinnescare una bomba.

Le implicazioni del debito tecnico

Per cominciare, più un sistema diventa intricato, più è difficile migliorarlo o mantenerlo. Questo non solo soffoca l'innovazione, ma può anche portare a problemi più gravi.

Per esempio, se un sistema di ML inizia a prendere decisioni basate su dati obsoleti o distorti perché troppo complicati da aggiornare, può rafforzare o amplificare i pregiudizi della società.

Inoltre, in applicazioni critiche come assistenza sanitaria o di veicoli autonomi, tale debito tecnico potrebbe avere conseguenze disastrose, non solo in termini di tempo e denaro, ma anche di benessere umano.

Come descrive lo studio, "non tutti i debiti sono necessariamente negativi, ma il debito tecnico tende ad aumentare. Rimandare il lavoro per ripagarlo si traduce in un aumento dei costi, in una fragilità del sistema e in una riduzione dei tassi di innovazione".

È anche un promemoria per le aziende e i consumatori per chiedere trasparenza e responsabilità nelle tecnologie AI che adottano.

Dopo tutto, l'obiettivo è quello di sfruttare la potenza dell'IA per migliorare la vita, non di impantanarsi in un ciclo infinito di rimborso del debito tecnico.

Studio 2: non si possono separare le allucinazioni dagli LLM

In un altro ma studio correlato dell'Università Nazionale di Singapore, i ricercatori Ziwei Xu, Sanjay Jain e Mohan Kankanhalli hanno analizzato i limiti intrinseci degli LLM.

"L'allucinazione è inevitabile: An Innate Limitation of Large Language Models" esplora la natura delle allucinazioni dell'intelligenza artificiale, che descrivono i casi in cui i sistemi di intelligenza artificiale generano informazioni plausibili ma imprecise o completamente inventate.

I fenomeni di allucinazione rappresentano una sfida tecnica importante, in quanto evidenziano un divario fondamentale tra l'output di un modello di IA e ciò che viene considerato la "verità di base", ovvero un modello ideale che produce sempre informazioni corrette e logiche.

Capire come e perché l'IA generativa sia allucinata è di fondamentale importanza, in quanto la tecnologia si integra in settori critici come la polizia e la giustizia, l'assistenza sanitaria e legale.

E se si potesse *provare* che le allucinazioni sono inevitabili nei LLM?

Questo cambierebbe
- Come vede gli LLM?
- Quanto investireste in loro?
- Quanto dareste priorità alla ricerca sulle alternative?

Un nuovo documento ne fa un esempio: https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 25 febbraio 2024

Basi teoriche delle allucinazioni

Lo studio inizia delineando un quadro teorico per comprendere le allucinazioni nei LLM.

I ricercatori channo creato un modello teorico noto come "mondo formale". Questo ambiente semplificato e controllato ha permesso di osservare le condizioni in cui i modelli di intelligenza artificiale non si allineano con la realtà.

Hanno quindi testato due grandi famiglie di LLM:

Lama 2: In particolare, è stata utilizzata la versione da 70 miliardi di parametri (llama2-70b-chat-hf) accessibile su HuggingFace. Questo modello rappresenta uno dei più recenti nell'arena dei modelli linguistici di grandi dimensioni, progettato per un'ampia gamma di compiti di generazione e comprensione del testo.
Trasformatori generativi preaddestrati (GPT): Lo studio ha incluso test su GPT-3.5, in particolare il modello gpt-3.5-turbo-16k da 175 miliardi di parametri, e GPT-4 (gpt-4-0613), per il quale il numero esatto di parametri non è stato reso noto.

Ai LLM è stato chiesto di elencare stringhe di una determinata lunghezza utilizzando un alfabeto specifico, un compito computazionale apparentemente semplice.

In particolare, i modelli avevano il compito di generare tutte le possibili stringhe di lunghezza variabile da 1 a 7, utilizzando alfabeti di due caratteri (ad esempio, {a, b}) e tre caratteri (ad esempio, {a, b, c}).

Gli output sono stati valutati in base al fatto che contenessero tutte e sole le stringhe della lunghezza specificata dell'alfabeto dato.

Risultati

I risultati hanno mostrato una chiara limitazione nelle capacità dei modelli di completare correttamente il compito all'aumentare della complessità (cioè all'aumentare della lunghezza delle stringhe o della dimensione dell'alfabeto). In particolare:

I modelli hanno funzionato adeguatamente con stringhe più corte e alfabeti più piccoli, ma hanno vacillato all'aumentare della complessità del compito.
In particolare, anche il modello avanzato GPT-4, il più sofisticato LLM attualmente disponibile, non è riuscito a elencare tutte le stringhe oltre una certa lunghezza.

Questo dimostra che le allucinazioni non sono un semplice difetto che può essere corretto o aggiustato: sono un aspetto fondamentale del modo in cui questi modelli comprendono e riproducono il linguaggio umano.

Come descrive lo studio, "I LLM non possono imparare tutto di le funzioni computabili e quindi avrà sempre un'allucinazione. Poiché il mondo formale è una parte di il mondo reale che è molto più complicato, le allucinazioni sono anche inevitabile per i LLM del mondo reale".

Le implicazioni per le applicazioni ad alto rischio sono vaste. In settori come la sanità, la finanza o la legge, dove l'accuratezza delle informazioni può avere gravi conseguenze, affidarsi a un LLM senza un sistema di sicurezza per filtrare queste allucinazioni potrebbe portare a gravi errori.

Questo studio ha attirato l'attenzione dell'esperto di IA Gary Marcus e dell'eminente psicologo cognitivo Steven Pinker.

L'allucinazione è inevitabile con i Large Language Models a causa della loro struttura: nessuna rappresentazione di fatti o cose, solo interrelazioni statistiche. Una nuova prova di "una limitazione innata" dei LLM. https://t.co/Hl1kqxJGXt

- Steven Pinker (@sapinker) 25 febbraio 2024

Sono in gioco questioni più profonde

L'accumulo di debiti tecnici e l'inevitabilità delle allucinazioni nei LLM sono sintomatici di una questione più profonda: l'attuale paradigma di sviluppo dell'IA potrebbe essere intrinsecamente disallineato per creare sistemi altamente intelligenti e allineati in modo affidabile con i valori umani e la verità fattuale.

In campi sensibili, avere un sistema di intelligenza artificiale che abbia ragione per la maggior parte del tempo non è sufficiente. Sia il debito tecnico che le allucinazioni minacciano l'integrità del modello nel tempo.

Risolvere questo problema non è solo una sfida tecnica, ma multidisciplinare, che richiede il contributo dell'etica dell'IA, delle politiche e delle competenze specifiche del settore per navigare in sicurezza.

In questo momento, ciò è apparentemente in contrasto con i principi di un'industria che vive all'insegna del motto "muoversi velocemente e rompere le cose".

Speriamo che gli esseri umani non siano le "cose".

Sistemi di intelligenza artificiale generativa, allucinazioni e debiti tecnici crescenti