xAI presenta in anteprima Grok-1.5 e crea un nuovo benchmark chiamato RealWorldQA

La xAI di Elon Musk ha svelato Grok-1.5, un modello di intelligenza artificiale multimodale progettato per battere la concorrenza nella comprensione degli scenari reali.

Seguendo le orme di altri, come GPT-4V, il nuovo Grok-1.5 introduce l'elaborazione visiva per analizzare qualsiasi cosa, da documenti e diagrammi a grafici, screenshot e fotografie.

Grok-1.5 guadagna terreno anche nei compiti di testo, codifica e matematica, ottenendo un punteggio di 50,6% nel benchmark MATH, 90% nel benchmark GSM8K e 74,1% nel benchmark HumanEval.

Questo proietta Grok-1.5 nella categoria dei pesi massimi LLM, con una media di punteggi leggermente inferiore a Gemini Pro 1.5, GPT-4 e Claude 3 Opus.

Grok-1.5 offre anche una comprensione del contesto più lunga, fino a 128K token, un aumento di 16 volte rispetto al suo predecessore, anche se ben lontano da quello offerto da Claude 3 Opus e Gemini 1.5 Pro.

Una valutazione di Needle In A Haystack (NIAH) ha dimostrato la capacità di Grok-1.5 di individuare il testo incorporato in contesti lunghi fino a 128K token.

Tuttavia, è sulle capacità di visione di Grok-1.5 che xAI sta spingendo di più.

Dimostrazioni mostra Grok-1.5 che converte schemi a blocchi in codice Python, genera storie della buonanotte ispirate a dipinti di bambini, crea insiemi di dati CSV da screenshot e persino "espande" i meme.

Grok-1.5 è in cima alla classifica in alcuni benchmark consolidati come Mathvista e TextVQA e ottiene i punteggi più alti nel nuovo benchmark di xAI, RealWorldQA.

Gli impressionanti benchmark di visione di Grok-1.5. Fonte: xAI

Sotto il cofano, Grok-1.5 è alimentato da un framework di addestramento distribuito personalizzato che consente al team di xAI di prototipare idee e addestrare nuove architetture su scala con il minimo sforzo.

xAI era fondata l'anno scorso e comprende alcuni dei migliori ricercatori di intelligenza artificiale del mondo con l'obiettivo ultra-ambizioso di "capire l'universo".

Finora abbiamo avuto l'arguto e stravagante Grok-1 che spiega alle persone come sintetizzare gli stupefacenti e critica Musk e Tesla.

Grok è anche collegato al database dei post di X che, tra le altre peculiarità, gli ha dato un certo seguito nonostante non abbia nulla da invidiare ai leader in termini di prestazioni pure.

Il progetto xAI di Musk sfida l'ecosistema principalmente chiuso dell'IA generativa, rendendo i suoi modelli disponibili a tutti sotto una vera e propria licenze open-source.

Insieme a Meta, che ha un intento simile di andare controcorrente rispetto ai concorrenti, la tesi aperta di xAI potrebbe diventare una spina nel fianco degli sforzi di monetizzazione di OpenAI, Microsoft, Anthropic e Google.

RealWorldQA

L'anteprima di Grok-1.5 ha visto anche xAI rivelare il RealWorldQA, un nuovo benchmark composto da oltre 700 immagini, ciascuna accompagnata da una domanda e da una risposta verificabile.

Il set di dati comprende principalmente immagini anonime catturate da veicoli e da altre situazioni del mondo reale.

Il dataset RealWorldQA è stato progettato per valutare le capacità di comprensione spaziale di Grok 1.5 e di altri modelli di IA multimodali. xAI ha ritenuto che altri benchmark fossero carenti in questo campo.

Grok-1.5 supera i concorrenti in RealWorldQA e sarà interessante vedere se prenderà piede.

Sebbene non sia in grado di comprendere l'universo, Grok-1.5 si posizionerà come un altro modello di alto livello in una gamma sempre più ampia.

Questo dimostra anche come l'IA generativa, nella sua forma attuale, stia raggiungendo l'apice dei suoi poteri, anche se forse non per molto.

xAI presenta in anteprima Grok-1.5 e crea un nuovo benchmark chiamato RealWorldQA

RealWorldQA

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

xAI presenta in anteprima Grok-1.5 e crea un nuovo benchmark chiamato RealWorldQA

RealWorldQA

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO ESCLUSIVORimanere all'avanguardia con DailyAI

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI