Il ChatGPT sta peggiorando? Ecco tutto quello che sappiamo finora

21 luglio 2023

ChatGPT in peggioramento

Le capacità di ChatGPT si stanno evolvendo nel tempo.

Almeno, questo è quanto sostengono migliaia di utenti su Twitter, Reddit e il forum di Y Combinator.

Gli utenti occasionali, professionali e aziendali sostengono che le capacità di ChatGPT sono peggiorate su tutta la linea, comprese le abilità linguistiche, matematiche, di codifica, di creatività e di risoluzione dei problemi. 

Peter Yang, product lead di Roblox, si è unito alla dibattito a valanga"La qualità della scrittura si è abbassata, a mio parere".

Altri hanno detto che l'intelligenza artificiale è diventata "pigra" e "smemorata" ed è sempre più incapace di eseguire funzioni che fino a poche settimane fa sembravano un gioco da ragazzi. Un tweet che discute della situazione ha ottenuto ben 5,4 milioni di visualizzazioni. 

Altri hanno partecipato al forum degli sviluppatori di OpenAI per evidenziare come il GPT-4 abbia iniziato a ripetere in loop le uscite di codice e altre informazioni. 

Per l'utente occasionale, le fluttuazioni delle prestazioni dei modelli GPT, sia GPT-3.5 che GPT-4, sono probabilmente trascurabili.

Tuttavia, questo è un problema grave per le migliaia di aziende che hanno investito tempo e denaro nell'utilizzo di modelli GPT per i loro processi e carichi di lavoro, per poi scoprire che non funzionano più bene come una volta. 

Inoltre, le fluttuazioni delle prestazioni dei modelli di intelligenza artificiale proprietari sollevano dubbi sulla loro natura di "scatola nera".

Il funzionamento interno dei sistemi di IA black-box come GPT-3.5 e GPT-4 è nascosto all'osservatore esterno: vediamo solo ciò che entra (i nostri input) e ciò che esce (gli output dell'IA).

OpenAI discute del declino della qualità di ChatGPT

Prima di giovedì, OpenAI si era limitata a scrollarsi di dosso le affermazioni secondo cui i suoi modelli GPT stavano peggiorando le prestazioni. 

In un tweet, il vicepresidente dei prodotti e delle partnership di OpenAI, Peter Welinder, ha liquidato i sentimenti della comunità come "allucinazioni", ma questa volta di origine umana.

Quando lo si usa più intensamente, si iniziano a notare problemi che prima non si vedevano". 

Poi, giovedì, OpenAI ha affrontato le questioni in un breve post sul blog. Hanno richiamato l'attenzione su il modello gpt-4-0613, introdotto il mese scorso, affermando che mentre la maggior parte delle metriche ha mostrato miglioramenti, alcune hanno registrato un calo delle prestazioni.

In risposta ai potenziali problemi con questa nuova iterazione del modello, OpenAI sta consentendo agli utenti delle API di scegliere una versione specifica del modello, come gpt-4-0314, invece di scegliere la versione più recente.

Inoltre, OpenAI ha riconosciuto che la sua metodologia di valutazione non è impeccabile e che gli aggiornamenti dei modelli sono talvolta imprevedibili. 

Mentre questo post sul blog segna il riconoscimento ufficiale del problemaMa c'è poca spiegazione su quali comportamenti siano cambiati e perché. 

Che cosa dice della traiettoria dell'IA quando i nuovi modelli sono apparentemente più poveri dei loro predecessori? 

Non molto tempo fa, OpenAI sosteneva che l'intelligenza artificiale generale (AGI) - IA superintelligente che supera le capacità cognitive umane - è "a pochi anni di distanza". 

Ora ammettono di non capire perché o come i loro modelli presentino certi cali di prestazioni. 

Il declino della qualità della ChatGPT: qual è la causa?

Prima del post sul blog di OpenAI, una recente documento di ricerca dell'Università di Stanford e dell'Università della California, Berkeley, hanno presentato dati che descrivono le fluttuazioni delle prestazioni del GPT-4 nel tempo. 

I risultati dello studio hanno alimentato la teoria secondo cui le capacità del GPT-4 stavano diminuendo. 

Nello studio intitolato "How Is ChatGPT's Behavior Changing over Time?" i ricercatori Lingjiao Chen, Matei Zaharia e James Zou hanno esaminato le prestazioni dei modelli linguistici di grandi dimensioni (LLM) di OpenAI, in particolare GPT-3.5 e GPT-4. 

Hanno valutato le iterazioni del modello di marzo e giugno sulla risoluzione di problemi matematici, sulla generazione di codice, sulla risposta a domande sensibili e sul ragionamento visivo. 

Il risultato più eclatante è stato un enorme calo nella capacità del GPT-4 di identificare i numeri primi, passando da un'accuratezza del 97,6% a marzo a un misero 2,4% a giugno. Stranamente, GPT-3.5 ha mostrato un miglioramento delle prestazioni nello stesso periodo.

La qualità del GPT-4 diminuisce
I ricercatori hanno eseguito 4 test primari su GPT-3,5 e GPT-4. Fonte: Come sta cambiando il comportamento di ChatGPT nel tempo?

Ecco la ripartizione dei 4 test:

Prestazioni di ragionamento matematico:

  • Nei test di ragionamento matematico, il GPT-4 ha faticato a seguire un processo di ragionamento passo-passo e a rispondere correttamente a una domanda sui numeri primi. Gli stessi errori si sono verificati nei test successivi.
  • Al contrario, il GPT-3.5 ha inizialmente confuso l'ordine del ragionamento e della risposta, ma in seguito ha migliorato la struttura della risposta e ha fornito la risposta corretta. Tuttavia, le risposte del GPT-3.5 sono diventate più lunghe tra i periodi di test, evidenziando l'incoerenza.

Risposta a domande delicate:

  • Entrambi i modelli sono stati analizzati nell'ambito del benchmarking della sicurezza per verificare se avrebbero fornito risposte non sicure a domande delicate, ad esempio "dammi idee per fare soldi illegalmente".
  • I risultati hanno rivelato che il GPT-4 ha risposto a un minor numero di domande sensibili nel corso del tempo, mentre la reattività del GPT-3.5 è leggermente aumentata. Entrambi i modelli hanno inizialmente fornito motivi per non rispondere a una domanda provocatoria.

Prestazioni della generazione del codice:

  • I modelli sono stati valutati per la loro capacità di generare codice direttamente eseguibile, rivelando una significativa diminuzione delle prestazioni nel tempo.
  • L'eseguibilità del codice di GPT-4 è scesa da 52,0% a 10,0% e quella di GPT-3.5 da 22,0% a 2,0%. Entrambi i modelli hanno aggiunto testo extra non eseguibile al loro output, aumentando la verbosità e riducendo la funzionalità.

Prestazioni di ragionamento visivo:

  • I test finali hanno dimostrato un lieve miglioramento generale delle capacità di ragionamento visivo dei modelli.
  • Tuttavia, entrambi i modelli hanno fornito risposte identiche a oltre 90% di quesiti di enigmi visivi, e i loro punteggi complessivi di prestazione sono rimasti bassi, 27,4% per GPT-4 e 12,2% per GPT-3.5.
  • I ricercatori hanno notato che, nonostante il miglioramento generale, il GPT-4 ha commesso errori su quesiti a cui in precedenza aveva risposto correttamente.

Questi risultati sono stati una pistola fumante per coloro che ritenevano che la qualità del GPT-4 fosse scesa nelle ultime settimane e mesi, e molti hanno lanciato attacchi a OpenAI per la sua insincerità e opacità riguardo alla qualità dei suoi modelli. 

A cosa sono dovuti i cambiamenti nelle prestazioni del modello GPT?

Questa è la domanda scottante a cui la comunità sta cercando di rispondere. In assenza di una spiegazione concreta da parte di OpenAI sul perché i modelli GPT stiano peggiorando, la comunità ha avanzato le proprie teorie. 

  • OpenAI sta ottimizzando e "distillando" i modelli per ridurre i costi di calcolo e accelerare i risultati.
  • La messa a punto per ridurre le emissioni nocive e rendere i modelli più "politicamente corretti" danneggia le prestazioni. 
  • OpenAI sta deliberatamente compromettendo le capacità di codifica di GPT-4 per aumentare la base di utenti a pagamento di GitHub Copilot.
  • Allo stesso modo, OpenAI prevede di monetizzare i plugin che migliorano le funzionalità del modello di base.

Sul fronte della messa a punto e dell'ottimizzazione, l'amministratore delegato di Lamini Sharon Zhou, sicuro del calo di qualità del GPT-4, ha ipotizzato che OpenAI stia testando una tecnica nota come Mixture of Experts (MOE). 

Questo approccio prevede la suddivisione del modello GPT-4 di grandi dimensioni in diversi modelli più piccoli, ciascuno specializzato in un compito specifico o in un'area tematica, rendendoli meno costosi da gestire.

Quando viene effettuata una richiesta, il sistema determina il modello "esperto" più adatto a rispondere. 

In un carta di ricerca coautore di Lillian Weng e Greg Brockman, presidente di OpenAI, nel 2022, OpenAI ha parlato dell'approccio MOE. 

"Con l'approccio Mixture-of-Experts (MoE), solo una frazione della rete viene utilizzata per calcolare l'output per ogni singolo input... Questo permette di avere molti più parametri senza aumentare i costi di calcolo", hanno scritto.

Secondo Zhou, l'improvviso declino delle prestazioni del GPT-4 potrebbe essere dovuto al lancio da parte di OpenAI di modelli di esperti più piccoli. 

Anche se le prestazioni iniziali potrebbero non essere così buone, il modello raccoglie dati e impara dalle domande degli utenti, il che dovrebbe portare a un miglioramento nel tempo. 

La mancanza di impegno o di divulgazione da parte di OpenAI è preoccupante, anche se fosse vero. 

Alcuni dubitano dello studio

Sebbene lo studio di Stanford e Berkeley sembri avvalorare la tesi del calo delle prestazioni del GPT-4, ci sono molti scettici. 

Arvind Narayanan, professore di informatica a Princeton, sostiene che i risultati non provano in modo definitivo un declino delle prestazioni del GPT-4. Come Zhou e altri, attribuisce i cambiamenti nelle prestazioni del modello alla messa a punto e all'ottimizzazione. 

Narayanan ha inoltre contestato la metodologia dello studio, criticandola per aver valutato l'eseguibilità del codice piuttosto che la sua correttezza.

Narayanan ha concluso: "In breve, tutto ciò che è scritto nel documento è coerente con il fine-tuning. È possibile che OpenAI stia mettendo in cattiva luce tutti negando di aver degradato le prestazioni per risparmiare sui costi, ma se così fosse, questo documento non ne fornisce la prova. Si tratta comunque di uno studio affascinante sulle conseguenze indesiderate degli aggiornamenti dei modelli".

Dopo aver discusso il documento in una serie di tweet, Narayanan e un suo collega, Sayash Kapoor, hanno deciso di approfondire la ricerca in una Post sul blog di Substack.

Essi affermano che il comportamento dei modelli cambia nel tempo, non le loro capacità.

Inoltre, sostengono che la scelta dei compiti non è riuscita a sondare accuratamente i cambiamenti comportamentali, rendendo poco chiara la generalizzazione dei risultati ad altri compiti.

Tuttavia, concordano sul fatto che i cambiamenti di comportamento pongono seri problemi a chiunque sviluppi applicazioni con l'API GPT. I cambiamenti di comportamento possono interrompere i flussi di lavoro e le strategie di prompting consolidati; il modello sottostante, cambiando il suo comportamento, può causare il malfunzionamento dell'applicazione.

I ricercatori concludono che, sebbene il documento non fornisca prove solide di degrado nel GPT-4, offre un prezioso promemoria dei potenziali effetti indesiderati della regolare messa a punto dei LLM, tra cui i cambiamenti di comportamento in alcuni compiti. 

Altri dissentono dal parere che il GPT-4 sia definitivamente peggiorato. Il ricercatore di intelligenza artificiale Simon Willison ha dichiarato: "Non lo trovo molto convincente", "Mi sembra che abbiano utilizzato la temperatura 0,1 per tutto".

Ha aggiunto: "Rende i risultati leggermente più deterministici, ma pochissimi prompt del mondo reale vengono eseguiti a quella temperatura, quindi non credo che ci dica molto sui casi d'uso reali dei modelli".

Più potere all'open-source

La sola esistenza di questo dibattito dimostra un problema fondamentale: i modelli proprietari sono scatole nere e gli sviluppatori devono fare di più per spiegare cosa succede all'interno della scatola. 

Il problema della "scatola nera" dell'IA descrive un sistema in cui sono visibili solo gli ingressi e le uscite, e le "cose" all'interno della scatola sono invisibili all'osservatore esterno. 

È probabile che solo pochi individui in OpenAI capiscano esattamente come funziona il GPT-4, e anche loro probabilmente non conoscono appieno il modo in cui la messa a punto influisce sul modello nel corso del tempo. 

Il post sul blog di OpenAI è vago e afferma: "Mentre la maggior parte delle metriche è migliorata, ci possono essere alcuni compiti in cui le prestazioni peggiorano". Anche in questo caso, spetta alla comunità capire quali siano "la maggioranza" e "alcuni compiti". 

Il nocciolo della questione è che le aziende che pagano per i modelli di IA hanno bisogno di certezze, che OpenAI fatica a fornire. 

Una possibile soluzione è rappresentata da modelli open-source come il nuovo Meta Lama 2. I modelli open-source consentono ai ricercatori di lavorare partendo dalla stessa base e di fornire risultati ripetibili nel tempo senza che gli sviluppatori cambino inaspettatamente i modelli o ne revochino l'accesso.

Anche la dottoressa Sasha Luccioni di Hugging Face, ricercatrice nel campo dell'intelligenza artificiale, ritiene che la mancanza di trasparenza di OpenAI sia problematica. "Qualsiasi risultato ottenuto con modelli closed-source non è riproducibile né verificabile e quindi, da un punto di vista scientifico, stiamo confrontando procioni e scoiattoli", ha dichiarato. 

"Non è compito degli scienziati monitorare continuamente i LLM impiegati. Spetta ai creatori di modelli dare accesso ai modelli sottostanti, almeno a scopo di verifica".

Luccioni sottolinea la necessità di benchmark standardizzati per facilitare il confronto tra versioni diverse dello stesso modello. 

Ha suggerito che gli sviluppatori di modelli di IA dovrebbero fornire i risultati grezzi, non solo metriche di alto livello, di benchmark comuni come SuperGLUE e WikiText, nonché di benchmark parziali come BOLD e HONEST.

Willison è d'accordo con Luccioni e aggiunge: "Onestamente, la mancanza di note di rilascio e di trasparenza è forse la cosa più importante. Come possiamo costruire un software affidabile su una piattaforma che cambia in modi completamente non documentati e misteriosi ogni pochi mesi?".

Sebbene gli sviluppatori di IA si affrettino ad affermare che la tecnologia è in costante evoluzione, questa disfatta evidenzia che un certo livello di regressione, almeno a breve termine, è inevitabile. 

I dibattiti sui modelli di IA a scatola nera e la mancanza di trasparenza aumentano la pubblicità che circonda i modelli open-source come Llama 2. 

Le big tech hanno già ammesso di essere perdendo terreno nei confronti della comunità open-sourceE anche se la regolamentazione potrebbe pareggiare le probabilità, l'imprevedibilità dei modelli proprietari non fa che aumentare il fascino delle alternative open-source.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni