Dopo il recente lancio di GPT-4 Turbo, l'ultima iterazione del modello linguistico di OpenAI, la comunità dell'intelligenza artificiale ha suscitato reazioni contrastanti.
Sebbene OpenAI abbia pubblicizzato GPT-4 Turbo come una versione più capace ed efficiente del suo predecessore, le testimonianze aneddotiche degli utenti suggeriscono un'esperienza diversa, in particolare nelle aree che richiedono capacità di ragionamento e programmazione di alto livello.
Le prove concrete dei test di benchmark cominciano solo ora ad emergere.
In un test di benchmark indipendente, un utente ha valutato GPT-4 Turbo rispetto a GPT-4 e GPT-3.5 utilizzando le sezioni di un test di lettura ufficiale SAT 2008-2009.
I risultati indicano una notevole differenza di prestazioni:
- GPT-3.5 ha ottenuto un punteggio di 690, con 10 risposte errate.
- Il GPT-4 ha ottenuto un punteggio di 770, con solo 3 risposte errate.
- GPT-4 Turbo, testato in due modalità, ha ottenuto rispettivamente 740 (5 errori) e 730 (6 errori).
OpenAI sostiene che GPT4-turbo è "migliore" di GPT4, ma ho eseguito i miei test e non credo che sia vero.
Ho fatto un benchmark sul SAT reading, che è un bel riferimento umano per la capacità di ragionamento. Ho preso 3 sezioni (67 domande) da un test ufficiale del 2008-2009 (scala 2400) e ho ottenuto... pic.twitter.com/LzIYS3R9ny
- Jeffrey Wang (@wangzjeff) 7 novembre 2023
Altri primi benchmark dicono il contrario
È stato condotto un altro test preliminare di benchmarking per valutare le capacità di editing del codice di questa nuova versione, utilizzando un ausiliario, uno strumento a riga di comando open-source progettato per la modifica del codice assistita dall'intelligenza artificiale.
È emerso che il GPT-4 Turbo (GPT-4-1106) mostra prestazioni migliori nei compiti di codifica, che ovviamente è un compito diverso dal test di linguaggio naturale di cui sopra.
Il benchmark ha utilizzato Aider per facilitare le interazioni tra l'utente e il modello GPT-4 per la modifica del codice nei repository git locali. Il test prevedeva il completamento di 133 esercizi di codifica di Exercism Python, fornendo una valutazione strutturata e quantitativa dell'efficienza e dell'accuratezza di editing del codice del modello.
Il processo è stato strutturato in due fasi:
- Aider ha fornito al modello GPT-4 il file di codice iniziale contenente stub di funzioni e descrizioni di problemi in linguaggio naturale. La prima risposta del modello è stata direttamente applicata per modificare il codice.
- Se il codice non superava la suite di test, Aider presentava al modello l'output dell'errore del test, chiedendogli di correggere il codice.
GPT-4-1106-Risultati dell'anteprima
- Miglioramento della velocità: Il modello GPT-4-1106-preview ha mostrato un notevole aumento della velocità di elaborazione rispetto ai suoi predecessori.
- Precisione al primo tentativo: Il modello ha dimostrato una percentuale di successo di 53% nel risolvere correttamente gli esercizi al primo tentativo, un miglioramento rispetto alla percentuale di successo compresa tra 46 e 47% delle versioni precedenti del GPT-4.
- Prestazioni dopo le correzioni: Dopo aver avuto una seconda possibilità di correggere il codice in base agli errori della suite di test, il nuovo modello ha raggiunto un livello di prestazioni simile (~62%) a quello dei vecchi modelli GPT-4, con tassi di successo compresi tra 63 e 64%.
Esperienza dell'utente nei compiti di programmazione
Gli sviluppatori che utilizzano il GPT-4 Turbo per compiti di codifica hanno riportato esperienze contrastanti.
Diversi utenti di X e Reddit hanno notato un calo nella capacità del modello di seguire accuratamente le istruzioni o di conservare efficacemente il contesto negli scenari di programmazione. Alcuni sono tornati a usare il GPT-4 dopo aver affrontato le sfide con il nuovo modello.
Un utente ha espresso la sua frustrazione su Reddit, affermando: "Sì, è piuttosto brutto. Eseguo GPT-4 su alcuni script e tengo dei test di esempio per assicurarmi che le prestazioni siano le stesse. Tutti questi test sono falliti con il nuovo GPT-4-preview e sono dovuto tornare al vecchio. Non può ragionare correttamente".
Un altro ha commentato: "È pazzesco quello che dicono alcune risposte, mi fa venire voglia di cancellare il mio abbonamento".
Gli aneddoti sono pressoché infiniti, un altro racconta: "Ho incollato circa 100 righe di codice e gli ho chiesto solo alcune cose piuttosto elementari. Il codice che mi ha inviato era completamente diverso da quello che gli avevo appena mostrato, e quasi completamente sbagliato. Non ho mai visto un'allucinazione così grave".
Purtroppo ho notato alcuni evidenti svantaggi nel GPT-4 Turbo rispetto al GPT-4,
soprattutto nel seguire le istruzioni.
Non sono l'unico nella comunità a sentirsi così.
Non ho effettuato test approfonditi, ma spero che prendiate nota e miglioriate.
Per il resto, è piuttosto deludente.- Augusdin (@augusdin) 12 novembre 2023
Nonostante le segnalazioni degli utenti, OpenAI ha enfatizzato i progressi in GPT-4 Turbo, evidenziando il prolungamento del termine di conoscenza fino all'aprile 2023 e l'aumento della finestra contestuale in grado di gestire oltre 300 pagine di testo.
OpenAI ha anche notato che le prestazioni del modello sono state ottimizzate, rendendolo più conveniente. Tuttavia, i dettagli sulle specifiche tecniche di ottimizzazione e sul loro impatto sulle capacità del modello rimangono limitati.
Sam Altman, CEO di OpenAI, ha annunciato che Turbo è stato modificato oggi, chiedendo agli utenti di riprovare il modello, ammettendo che ci sono dei problemi.
L'azienda ha dovuto affrontare critiche simili per le versioni del GPT-4, che sembravano calo delle prestazioni dal suo rilascio.
OpenAI affronta le critiche sulla censura
ChatGPT, sviluppato da OpenAI, è stato esaminato per la sua gestione della censura e per i potenziali pregiudizi politici.
I critici sostengono che il modello a volte mostra la tendenza a evitare o a distorcere argomenti specifici, soprattutto quelli ritenuti politicamente sensibili o controversi.
Questo comportamento è spesso attribuito ai dati di formazione e alle linee guida di moderazione che modellano le risposte dell'IA.
Queste linee guida mirano a prevenire la diffusione di disinformazione, incitamento all'odio e contenuti di parte, ma alcuni utenti ritengono che questo approccio porti a una correzione eccessiva, con conseguente percezione di censura o parzialità nelle risposte dell'IA.
Al contrario, Grok di xAI è stato notato per il suo approccio apparentemente meno restrittivo alla moderazione dei contenuti.
Gli utenti di Grok hanno osservato che la piattaforma sembra più disposta a trattare una gamma più ampia di argomenti, compresi quelli che potrebbero essere filtrati o gestiti con maggiore cautela da ChatGPT.
Grok, alimentata dalle esuberanti buffonate di Elon Musk, è stata vista come una "spada" per la "woke AI", di cui ChatGPT è un fiore all'occhiello.
Per riassumere, i test di benchmark sulle prestazioni di GPT-4 Turbo sono estremamente limitati al momento e affidarsi a rapporti aneddotici è problematico.
Il crescente successo di OpenAI ha messo l'azienda nel mirino, in particolare con il rilascio di Grok di xAI e la sua resistenza alla "woke AI".
Ottenere una visione obiettiva delle prestazioni di GPT-4 Turbo è eccezionalmente difficile per ora, ma il dibattito se i risultati di ChatGPT stiano realmente migliorando rimarrà.