Anthropic rilascia Claude 3 che batte GPT-4 nei benchmark

Anthropic, startup di San Francisco che si occupa di AI, ha rilasciato il suo ultimo LLM con la sua famiglia di modelli Claude 3.

Claude 3 è disponibile in tre varianti: Haiku, Sonnet e Opus. Per i meno poetici tra noi, ciò si traduce in piccolo, medio e grande. Claude 3 Opus è il modello più avanzato di Anthropic ed è il primo del settore a dichiarare di aver battuto il GPT-4 di OpenAI in un'ampia gamma di benchmark.

Il GPT-4 è stato a lungo il gold standard che le aziende di IA hanno utilizzato per confrontare le loro prestazioni LLM. Questi paragoni hanno spesso usato parole come "si sta avvicinando" o "quasi", ma Anthropic può finalmente affermare di aver superato le capacità del GPT-4.

Ecco i dati di benchmark per Claude 3 rispetto a GPT-4, GPT-3 e Gemini Ultra e Pro.

I dati di benchmark di Claude 3 confrontati con GPT-4, GPT-3.5, Gemini Ultra e Gemini Pro. Fonte: Antropico

Vale la pena notare che i dati del GPT-4 sopra riportati sono quelli forniti da OpenAI nel suo rapporto tecnico prima del rilascio del GPT-4. Il Scheda modello Claude 3 riconosce che sono stati riportati punteggi più alti per il GPT-4 Turbo.

Tuttavia, le figure di Claude 3 Opus sono un grande affare. Nonostante le inevitabili discussioni su come l'azienda sia arrivata a queste cifre, Anthropic afferma che Claude 3 Opus rappresenta "un'intelligenza superiore a qualsiasi altro modello disponibile".

I costi delle API di input/output di Claude 3 Opus sono pari a $15 / $75 per milione di gettoni. Si tratta di un prezzo elevato rispetto a GPT-4 Turbo che costa $10 / $30. Claude 3 Sonnet ($3 / $15) e Claude 3 Haiku ($0,25 / $1,25) offrono un ottimo rapporto qualità/prezzo se si considerano le prestazioni di questi modelli più piccoli.

Se volete provare Claude 3 gratuitamente, potete farlo sul sito di Anthropic claude.ai chatbot una volta che i suoi server si saranno ripresi dall'ondata di traffico. È alimentato da Claude 3 Sonnet, mentre gli utenti Pro a pagamento avranno accesso a Opus.

I modelli Claude 3 non sono multimodali, ma hanno notevoli capacità di visione. Non sono in grado di generare un'immagine per voi, ma i benchmark indicano che Opus è in grado di analizzare foto, tabelle, grafici e diagrammi tecnici.

Le capacità di visione di Claude 3 a confronto con GPT-4V, Gemini Ultra e Gemini Pro. Fonte: Antropico

Anthropic afferma che i modelli Claude 3 sono in grado di accettare input superiori a 1 milione di token ma, per la maggior parte degli utenti, la finestra di contesto sarà limitata a 200k token per ora. È comunque molto di più del contesto di 128k di GPT-4 Turbo.

Un'ampia finestra di contesto è utile solo se abbinata a un buon richiamo e Anthropic sostiene che Opus offre un "richiamo quasi perfetto, superando la precisione di 99%".

Durante il test di richiamo "ago nel pagliaio" di Claude 3 Opus è accaduto qualcosa di interessante. Quando gli è stata posta una domanda a cui si poteva rispondere solo se avesse individuato la frase "ago" inserita, ha indicato di aver capito che era in corso un test. Impressionante e un po' spaventoso.

Claude 3 Opus si è accorto di essere sottoposto a un test. Fonte: X

L'antropica è una grande sostenitrice di ciò che chiama "IA costituzionale" che mira a migliorare la sicurezza e la trasparenza dei suoi modelli. Con Claude 2Questa ricerca della sicurezza si è tradotta in molti rifiuti di rispondere a richieste che in realtà erano innocue.

Claude 3 è in grado di comprendere meglio le sfumature dei suggerimenti per decidere meglio ciò che rientra o meno nei limiti di sicurezza di Anthropic. Claude 3 ottiene anche una precisione molto migliore e una riduzione delle allucinazioni rispetto a Claude 2.1.

Un esempio di richiesta a cui Claude 2.1 si rifiuta di rispondere, mentre Claude 3 la riconosce come sicura.

Alcuni pessimisti dell'IA sostengono che stiamo andando incontro a un inverno dell'IA e che le prestazioni dei modelli LLM stanno raggiungendo un plateau, ma Anthropic non è d'accordo. L'azienda afferma di non credere che "l'intelligenza dei modelli sia vicina ai suoi limiti".

In futuro è previsto un interessante aggiornamento di Claude 3 con l'aggiunta di funzionalità agenziali più avanzate, tra cui l'uso di strumenti e la codifica interattiva (REPL).

Il prezzo elevato potrebbe far sì che il mercato iniziale di Claude 3 Opus sia costituito da applicazioni di ricerca o professionali più di nicchia. Il prezzo e le prestazioni offerte da Sonnet e Haiku saranno probabilmente i settori in cui si registrerà la maggiore adozione per il momento.

Vedremo un calo di prezzo da parte di OpenAI? Con OpenAI che sente il calore in cima ai benchmark, dobbiamo essere davvero vicini all'annuncio di un GPT-5.

Anthropic rilascia Claude 3, che batte il GPT-4 nei benchmark

Partecipa al futuro

Eugene van der Watt

ARTICOLI CORRELATI

L'industria del gioco sta affrontando una crisi di mezza età: l'intelligenza artificiale è il suo futuro?

OpenAI svela l'API Realtime e altre funzionalità per gli sviluppatori

Il governatore della California Gavin Newsom pone il veto alla legge SB 1047 sulla sicurezza dell'IA

Come si comporta la Cina nella corsa all'intelligenza artificiale? I giganti tecnologici e le startup stanno superando i limiti