Le prestazioni del GPT-4 Turbo vengono accolte con freddezza dagli utenti

12 novembre 2023

GPT-4 Turbo

Dopo il recente lancio di GPT-4 Turbo, l'ultima iterazione del modello linguistico di OpenAI, la comunità dell'intelligenza artificiale ha suscitato reazioni contrastanti. 

Sebbene OpenAI abbia pubblicizzato GPT-4 Turbo come una versione più capace ed efficiente del suo predecessore, le testimonianze aneddotiche degli utenti suggeriscono un'esperienza diversa, in particolare nelle aree che richiedono capacità di ragionamento e programmazione di alto livello.

Le prove concrete dei test di benchmark cominciano solo ora ad emergere. 

In un test di benchmark indipendente, un utente ha valutato GPT-4 Turbo rispetto a GPT-4 e GPT-3.5 utilizzando le sezioni di un test di lettura ufficiale SAT 2008-2009.

I risultati indicano una notevole differenza di prestazioni:

  • GPT-3.5 ha ottenuto un punteggio di 690, con 10 risposte errate.
  • Il GPT-4 ha ottenuto un punteggio di 770, con solo 3 risposte errate.
  • GPT-4 Turbo, testato in due modalità, ha ottenuto rispettivamente 740 (5 errori) e 730 (6 errori).

Altri primi benchmark dicono il contrario

È stato condotto un altro test preliminare di benchmarking per valutare le capacità di editing del codice di questa nuova versione, utilizzando un ausiliario, uno strumento a riga di comando open-source progettato per la modifica del codice assistita dall'intelligenza artificiale.

È emerso che il GPT-4 Turbo (GPT-4-1106) mostra prestazioni migliori nei compiti di codifica, che ovviamente è un compito diverso dal test di linguaggio naturale di cui sopra.

Il benchmark ha utilizzato Aider per facilitare le interazioni tra l'utente e il modello GPT-4 per la modifica del codice nei repository git locali. Il test prevedeva il completamento di 133 esercizi di codifica di Exercism Python, fornendo una valutazione strutturata e quantitativa dell'efficienza e dell'accuratezza di editing del codice del modello.

Il processo è stato strutturato in due fasi:

  1. Aider ha fornito al modello GPT-4 il file di codice iniziale contenente stub di funzioni e descrizioni di problemi in linguaggio naturale. La prima risposta del modello è stata direttamente applicata per modificare il codice.
  2. Se il codice non superava la suite di test, Aider presentava al modello l'output dell'errore del test, chiedendogli di correggere il codice.

GPT-4-1106-Risultati dell'anteprima

  • Miglioramento della velocità: Il modello GPT-4-1106-preview ha mostrato un notevole aumento della velocità di elaborazione rispetto ai suoi predecessori.
  • Precisione al primo tentativo: Il modello ha dimostrato una percentuale di successo di 53% nel risolvere correttamente gli esercizi al primo tentativo, un miglioramento rispetto alla percentuale di successo compresa tra 46 e 47% delle versioni precedenti del GPT-4.
  • Prestazioni dopo le correzioni: Dopo aver avuto una seconda possibilità di correggere il codice in base agli errori della suite di test, il nuovo modello ha raggiunto un livello di prestazioni simile (~62%) a quello dei vecchi modelli GPT-4, con tassi di successo compresi tra 63 e 64%. 

Esperienza dell'utente nei compiti di programmazione

Gli sviluppatori che utilizzano il GPT-4 Turbo per compiti di codifica hanno riportato esperienze contrastanti.

Diversi utenti di X e Reddit hanno notato un calo nella capacità del modello di seguire accuratamente le istruzioni o di conservare efficacemente il contesto negli scenari di programmazione. Alcuni sono tornati a usare il GPT-4 dopo aver affrontato le sfide con il nuovo modello.

Un utente ha espresso la sua frustrazione su Reddit, affermando: "Sì, è piuttosto brutto. Eseguo GPT-4 su alcuni script e tengo dei test di esempio per assicurarmi che le prestazioni siano le stesse. Tutti questi test sono falliti con il nuovo GPT-4-preview e sono dovuto tornare al vecchio. Non può ragionare correttamente".

Un altro ha commentato: "È pazzesco quello che dicono alcune risposte, mi fa venire voglia di cancellare il mio abbonamento".

Gli aneddoti sono pressoché infiniti, un altro racconta: "Ho incollato circa 100 righe di codice e gli ho chiesto solo alcune cose piuttosto elementari. Il codice che mi ha inviato era completamente diverso da quello che gli avevo appena mostrato, e quasi completamente sbagliato. Non ho mai visto un'allucinazione così grave".

Nonostante le segnalazioni degli utenti, OpenAI ha enfatizzato i progressi in GPT-4 Turbo, evidenziando il prolungamento del termine di conoscenza fino all'aprile 2023 e l'aumento della finestra contestuale in grado di gestire oltre 300 pagine di testo. 

OpenAI ha anche notato che le prestazioni del modello sono state ottimizzate, rendendolo più conveniente. Tuttavia, i dettagli sulle specifiche tecniche di ottimizzazione e sul loro impatto sulle capacità del modello rimangono limitati.

Sam Altman, CEO di OpenAI, ha annunciato che Turbo è stato modificato oggi, chiedendo agli utenti di riprovare il modello, ammettendo che ci sono dei problemi.

L'azienda ha dovuto affrontare critiche simili per le versioni del GPT-4, che sembravano calo delle prestazioni dal suo rilascio

OpenAI affronta le critiche sulla censura

ChatGPT, sviluppato da OpenAI, è stato esaminato per la sua gestione della censura e per i potenziali pregiudizi politici. 

I critici sostengono che il modello a volte mostra la tendenza a evitare o a distorcere argomenti specifici, soprattutto quelli ritenuti politicamente sensibili o controversi. 

Questo comportamento è spesso attribuito ai dati di formazione e alle linee guida di moderazione che modellano le risposte dell'IA. 

Queste linee guida mirano a prevenire la diffusione di disinformazione, incitamento all'odio e contenuti di parte, ma alcuni utenti ritengono che questo approccio porti a una correzione eccessiva, con conseguente percezione di censura o parzialità nelle risposte dell'IA.

Al contrario, Grok di xAI è stato notato per il suo approccio apparentemente meno restrittivo alla moderazione dei contenuti. 

Gli utenti di Grok hanno osservato che la piattaforma sembra più disposta a trattare una gamma più ampia di argomenti, compresi quelli che potrebbero essere filtrati o gestiti con maggiore cautela da ChatGPT. 

Grok, alimentata dalle esuberanti buffonate di Elon Musk, è stata vista come una "spada" per la "woke AI", di cui ChatGPT è un fiore all'occhiello. 

Per riassumere, i test di benchmark sulle prestazioni di GPT-4 Turbo sono estremamente limitati al momento e affidarsi a rapporti aneddotici è problematico.

Il crescente successo di OpenAI ha messo l'azienda nel mirino, in particolare con il rilascio di Grok di xAI e la sua resistenza alla "woke AI". 

Ottenere una visione obiettiva delle prestazioni di GPT-4 Turbo è eccezionalmente difficile per ora, ma il dibattito se i risultati di ChatGPT stiano realmente migliorando rimarrà. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni