Gli utenti danno alle prestazioni del GPT-4 Turbo un'accoglienza gelida

Dopo il recente lancio di GPT-4 Turbo, l'ultima iterazione del modello linguistico di OpenAI, la comunità dell'intelligenza artificiale ha suscitato reazioni contrastanti.

Sebbene OpenAI abbia pubblicizzato GPT-4 Turbo come una versione più capace ed efficiente del suo predecessore, le testimonianze aneddotiche degli utenti suggeriscono un'esperienza diversa, in particolare nelle aree che richiedono capacità di ragionamento e programmazione di alto livello.

Le prove concrete dei test di benchmark cominciano solo ora ad emergere.

In un test di benchmark indipendente, un utente ha valutato GPT-4 Turbo rispetto a GPT-4 e GPT-3.5 utilizzando le sezioni di un test di lettura ufficiale SAT 2008-2009.

I risultati indicano una notevole differenza di prestazioni:

GPT-3.5 ha ottenuto un punteggio di 690, con 10 risposte errate.
Il GPT-4 ha ottenuto un punteggio di 770, con solo 3 risposte errate.
GPT-4 Turbo, testato in due modalità, ha ottenuto rispettivamente 740 (5 errori) e 730 (6 errori).

OpenAI sostiene che GPT4-turbo è "migliore" di GPT4, ma ho eseguito i miei test e non credo che sia vero.

Ho fatto un benchmark sul SAT reading, che è un bel riferimento umano per la capacità di ragionamento. Ho preso 3 sezioni (67 domande) da un test ufficiale del 2008-2009 (scala 2400) e ho ottenuto... pic.twitter.com/LzIYS3R9ny

- Jeffrey Wang (@wangzjeff) 7 novembre 2023

Altri primi benchmark dicono il contrario

È stato condotto un altro test preliminare di benchmarking per valutare le capacità di editing del codice di questa nuova versione, utilizzando un ausiliario, uno strumento a riga di comando open-source progettato per la modifica del codice assistita dall'intelligenza artificiale.

È emerso che il GPT-4 Turbo (GPT-4-1106) mostra prestazioni migliori nei compiti di codifica, che ovviamente è un compito diverso dal test di linguaggio naturale di cui sopra.

Il benchmark ha utilizzato Aider per facilitare le interazioni tra l'utente e il modello GPT-4 per la modifica del codice nei repository git locali. Il test prevedeva il completamento di 133 esercizi di codifica di Exercism Python, fornendo una valutazione strutturata e quantitativa dell'efficienza e dell'accuratezza di editing del codice del modello.

Il processo è stato strutturato in due fasi:

Aider ha fornito al modello GPT-4 il file di codice iniziale contenente stub di funzioni e descrizioni di problemi in linguaggio naturale. La prima risposta del modello è stata direttamente applicata per modificare il codice.
Se il codice non superava la suite di test, Aider presentava al modello l'output dell'errore del test, chiedendogli di correggere il codice.

GPT-4-1106-Risultati dell'anteprima

Miglioramento della velocità: Il modello GPT-4-1106-preview ha mostrato un notevole aumento della velocità di elaborazione rispetto ai suoi predecessori.
Precisione al primo tentativo: Il modello ha dimostrato una percentuale di successo di 53% nel risolvere correttamente gli esercizi al primo tentativo, un miglioramento rispetto alla percentuale di successo compresa tra 46 e 47% delle versioni precedenti del GPT-4.
Prestazioni dopo le correzioni: Dopo aver avuto una seconda possibilità di correggere il codice in base agli errori della suite di test, il nuovo modello ha raggiunto un livello di prestazioni simile (~62%) a quello dei vecchi modelli GPT-4, con tassi di successo compresi tra 63 e 64%.

Esperienza dell'utente nei compiti di programmazione

Gli sviluppatori che utilizzano il GPT-4 Turbo per compiti di codifica hanno riportato esperienze contrastanti.

Diversi utenti di X e Reddit hanno notato un calo nella capacità del modello di seguire accuratamente le istruzioni o di conservare efficacemente il contesto negli scenari di programmazione. Alcuni sono tornati a usare il GPT-4 dopo aver affrontato le sfide con il nuovo modello.

Un utente ha espresso la sua frustrazione su Reddit, affermando: "Sì, è piuttosto brutto. Eseguo GPT-4 su alcuni script e tengo dei test di esempio per assicurarmi che le prestazioni siano le stesse. Tutti questi test sono falliti con il nuovo GPT-4-preview e sono dovuto tornare al vecchio. Non può ragionare correttamente".

Un altro ha commentato: "È pazzesco quello che dicono alcune risposte, mi fa venire voglia di cancellare il mio abbonamento".

Gli aneddoti sono pressoché infiniti, un altro racconta: "Ho incollato circa 100 righe di codice e gli ho chiesto solo alcune cose piuttosto elementari. Il codice che mi ha inviato era completamente diverso da quello che gli avevo appena mostrato, e quasi completamente sbagliato. Non ho mai visto un'allucinazione così grave".

Purtroppo ho notato alcuni evidenti svantaggi nel GPT-4 Turbo rispetto al GPT-4,
soprattutto nel seguire le istruzioni.
Non sono l'unico nella comunità a sentirsi così.
Non ho effettuato test approfonditi, ma spero che prendiate nota e miglioriate.
Per il resto, è piuttosto deludente.

- Augusdin (@augusdin) 12 novembre 2023

Nonostante le segnalazioni degli utenti, OpenAI ha enfatizzato i progressi in GPT-4 Turbo, evidenziando il prolungamento del termine di conoscenza fino all'aprile 2023 e l'aumento della finestra contestuale in grado di gestire oltre 300 pagine di testo.

OpenAI ha anche notato che le prestazioni del modello sono state ottimizzate, rendendolo più conveniente. Tuttavia, i dettagli sulle specifiche tecniche di ottimizzazione e sul loro impatto sulle capacità del modello rimangono limitati.

Sam Altman, CEO di OpenAI, ha annunciato che Turbo è stato modificato oggi, chiedendo agli utenti di riprovare il modello, ammettendo che ci sono dei problemi.

L'azienda ha dovuto affrontare critiche simili per le versioni del GPT-4, che sembravano calo delle prestazioni dal suo rilascio.

OpenAI affronta le critiche sulla censura

ChatGPT, sviluppato da OpenAI, è stato esaminato per la sua gestione della censura e per i potenziali pregiudizi politici.

I critici sostengono che il modello a volte mostra la tendenza a evitare o a distorcere argomenti specifici, soprattutto quelli ritenuti politicamente sensibili o controversi.

Questo comportamento è spesso attribuito ai dati di formazione e alle linee guida di moderazione che modellano le risposte dell'IA.

Queste linee guida mirano a prevenire la diffusione di disinformazione, incitamento all'odio e contenuti di parte, ma alcuni utenti ritengono che questo approccio porti a una correzione eccessiva, con conseguente percezione di censura o parzialità nelle risposte dell'IA.

Al contrario, Grok di xAI è stato notato per il suo approccio apparentemente meno restrittivo alla moderazione dei contenuti.

Gli utenti di Grok hanno osservato che la piattaforma sembra più disposta a trattare una gamma più ampia di argomenti, compresi quelli che potrebbero essere filtrati o gestiti con maggiore cautela da ChatGPT.

Grok, alimentata dalle esuberanti buffonate di Elon Musk, è stata vista come una "spada" per la "woke AI", di cui ChatGPT è un fiore all'occhiello.

Per riassumere, i test di benchmark sulle prestazioni di GPT-4 Turbo sono estremamente limitati al momento e affidarsi a rapporti aneddotici è problematico.

Il crescente successo di OpenAI ha messo l'azienda nel mirino, in particolare con il rilascio di Grok di xAI e la sua resistenza alla "woke AI".

Ottenere una visione obiettiva delle prestazioni di GPT-4 Turbo è eccezionalmente difficile per ora, ma il dibattito se i risultati di ChatGPT stiano realmente migliorando rimarrà.

Le prestazioni del GPT-4 Turbo vengono accolte con freddezza dagli utenti

Altri primi benchmark dicono il contrario

GPT-4-1106-Risultati dell'anteprima

Esperienza dell'utente nei compiti di programmazione

OpenAI affronta le critiche sulla censura

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Le prestazioni del GPT-4 Turbo vengono accolte con freddezza dagli utenti

Altri primi benchmark dicono il contrario

GPT-4-1106-Risultati dell'anteprima

Esperienza dell'utente nei compiti di programmazione

OpenAI affronta le critiche sulla censura

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO ESCLUSIVORimanere all'avanguardia con DailyAI

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI