Mentre i modelli di IA continuano a inserirsi nella nostra vita quotidiana, aumentano le preoccupazioni sui limiti e sull'affidabilità dei loro cosiddetti "guardrail".
I modelli di IA onnipresenti, come GPT-3.5/4/4V e altri, sono dotati di protezioni e misure di sicurezza integrate che impediscono loro di produrre risultati illeciti, non etici o comunque indesiderati.
Tuttavia, queste caratteristiche di sicurezza sono tutt'altro che impermeabili e i modelli stanno dimostrando la loro capacità di staccarsi dai loro guardrail, o di uscire dai binari, per così dire.
Parte del problema è che i guardrail non tengono il passo con la complessità e la diversità dei modelli.
Nelle scorse settimane, OpenAI, supportato da Microsoft, ha rivelato importanti miglioramenti a ChatGPT, rendendolo in grado di interagire solo con la voce e di rispondere alle domande attraverso immagini e testo. Questa versione multimodale di GPT-4, in grado di gestire le immagini, è stata denominata "GPT-4V".
Parallelamente, Meta ha annunciato il lancio di un assistente AI, diversi personaggi famosi dei chatbot per gli utenti di WhatsApp e Instagram, e una serie di altre funzioni AI di basso profilo come gli adesivi AI.
Le persone hanno prontamente manipolato il Adesivi AI da generare immagini comiche e scioccanti, come Karl Marx nudo o Mario con un fucile d'assalto.
Con l'intensificarsi della corsa alla commercializzazione dell'IA, le salvaguardie progettate per controllare i comportamenti dell'IA - e impedire che generi contenuti dannosi, disinformazione o aiuti in attività illecite - si stanno rivelando sempre più deboli.
L'intelligenza artificiale costituzionale è la risposta?
Per contrastare questo fenomeno, le aziende sviluppatrici di IA stanno cercando di creare delle "costituzioni dell'IA", un insieme di principi e valori fondamentali a cui i modelli di IA devono aderire. La startup Antropico è stato tra i primi a sostenere la "IA costituzionale" in una 2022 carta.
Google DeepMind ha anche stabilito delle regole costituzionali per il suo chatbot Passero nel 2022 mantenere conversazioni "utili, corrette e innocue".
Le costituzioni dell'intelligenza artificiale di Anthropic derivano i principi da varie fonti, tra cui la Dichiarazione dei diritti umani delle Nazioni Unite e i termini di servizio di Apple. Il modello è dotato di principi morali fondamentali che guidano il comportamento dal basso verso l'alto piuttosto che imporre barriere dall'alto verso il basso.
Invece di addestrare faticosamente l'IA con innumerevoli esempi di ciò che è giusto o sbagliato forniti dall'uomo, questo approccio incorpora un insieme di regole o principi - una "costituzione" - a cui l'IA si attiene.
Inizialmente, l'intelligenza artificiale viene introdotta in una situazione, poi le viene chiesto di criticare la sua risposta e, infine, di perfezionare il suo comportamento in base alla soluzione rivista.
Successivamente, il sistema si immerge nella fase di apprendimento per rinforzo. Qui misura la qualità delle proprie risposte, distinguendo quella migliore. Nel tempo, questa autovalutazione affina il suo comportamento.
La novità è che l'IA utilizza il suo ciclo di feedback per determinare la ricompensa in un metodo definito "RL from AI Feedback" (RLAIF). Quando si trova di fronte a richieste potenzialmente dannose o fuorvianti, l'IA non si limita a scansarsi o a rifiutare. Al contrario, affronta la questione di petto, spiegando perché una richiesta del genere potrebbe essere problematica.
È un passo avanti nella creazione di macchine che non solo calcolano ma anche "pensano" in modo strutturato.
Dario Amodei, CEO e co-fondatore di Anthropic, ha sottolineato la sfida di comprendere il funzionamento interno dei modelli di IA. Suggerisce che una costituzione renderebbe le regole trasparenti ed esplicite, assicurando che tutti gli utenti sappiano cosa aspettarsi.
Inoltre, offre anche un mezzo per responsabilizzare il modello se non si attiene ai principi delineati.
Nonostante questi sforzi, le costituzioni dell'IA non sono prive di difetti e i modelli di sviluppatori come Anthropic si sono dimostrati vulnerabili a jailbreak come molti altri.
Non esistono percorsi universalmente accettati per formare modelli di IA sicuri ed etici.
Storicamente, i modelli di IA sono stati perfezionati utilizzando un metodo chiamato apprendimento rinforzato tramite feedback umano (RLHF), in cui le risposte dell'IA vengono classificate come "buone" o "cattive" da grandi gruppi di valutatori umani.
Pur essendo in parte efficace, questo metodo è stato criticato per la sua mancanza di accuratezza e specificità. Per garantire l'etica e la sicurezza dell'IA, le aziende stanno ora esplorando soluzioni alternative.
Ad esempio, OpenAI ha adottato l'approccio "red-teaming", assumendo esperti di varie discipline per testare e identificare i punti deboli dei suoi modelli.
Il sistema di OpenAI opera in iterazioni: il modello AI produce risultati, i revisori umani li valutano e li correggono sulla base di linee guida specifiche e il modello impara da questo feedback. I dati di formazione di questi revisori sono fondamentali per la calibrazione etica del modello.
ChatGPT spesso opta per una risposta conservativa quando si trova di fronte ad argomenti controversi o sensibili, talvolta evitando una risposta diretta. Questo contrasta con l'IA costituzionale, dove il modello dovrebbe chiarire le sue riserve quando gli vengono presentate domande potenzialmente dannose, dimostrando attivamente un ragionamento basato sulle sue regole fondamentali.
In sostanza, mentre ChatGPT fa molto affidamento sul feedback umano per il suo orientamento etico, l'IA costituzionale utilizza un framework basato su regole prestabilite con meccanismi di auto-verifica e un'enfasi sulla trasparenza del ragionamento.
Alla fine, è probabile che non esista un approccio unico per lo sviluppo di IA "sicure" e alcuni, come Elon Musk, criticano la nozione di IA "sveglia" sterilizzata. Gli studi hanno dimostrato che anche le IA costituzionali possono essere jailbroken, manipolandole in comportamenti imprevedibili.
Rebecca Johnson, ricercatrice di etica dell'IA presso l'Università di Sydney, ha sottolineato che gli ingegneri e gli informatici dell'IA spesso affrontano i problemi con l'obiettivo di trovare soluzioni definitive, che non sempre tengono conto della complessità della natura umana.
"Dobbiamo iniziare a trattare le IA generative come estensioni degli esseri umani, sono solo un altro aspetto dell'umanità", ha detto.
Controllare in modo completo l'IA come una sorta di semplice sistema tecnico diventerà solo più difficile da gestire in quanto si evolveE lo stesso si può dire degli organismi biologici come noi.
La divergenza, provocata o meno, è forse inevitabile.