xAI presenta in anteprima Grok-1.5 e crea un nuovo benchmark chiamato RealWorldQA

14 aprile 2024

  • La xAI di Elon Musk ha presentato in anteprima il suo secondo modello di fondazione, Grok-1.5
  • Grok-1.5 compete bene con i modelli leader, in particolare nei compiti di visione.
  • xAI ha anche stabilito un nuovo punto di riferimento per testare le capacità di visione dei modelli.

La xAI di Elon Musk ha svelato Grok-1.5, un modello di intelligenza artificiale multimodale progettato per battere la concorrenza nella comprensione degli scenari reali. 

Seguendo le orme di altri, come GPT-4V, il nuovo Grok-1.5 introduce l'elaborazione visiva per analizzare qualsiasi cosa, da documenti e diagrammi a grafici, screenshot e fotografie.

Grok-1.5 guadagna terreno anche nei compiti di testo, codifica e matematica, ottenendo un punteggio di 50,6% nel benchmark MATH, 90% nel benchmark GSM8K e 74,1% nel benchmark HumanEval. 

Questo proietta Grok-1.5 nella categoria dei pesi massimi LLM, con una media di punteggi leggermente inferiore a Gemini Pro 1.5, GPT-4 e Claude 3 Opus.

Grok
I benchmark competitivi di Grok-1.5 per testo, matematica e codifica. Fonte: xAI

Grok-1.5 offre anche una comprensione del contesto più lunga, fino a 128K token, un aumento di 16 volte rispetto al suo predecessore, anche se ben lontano da quello offerto da Claude 3 Opus e Gemini 1.5 Pro.

Una valutazione di Needle In A Haystack (NIAH) ha dimostrato la capacità di Grok-1.5 di individuare il testo incorporato in contesti lunghi fino a 128K token.

Tuttavia, è sulle capacità di visione di Grok-1.5 che xAI sta spingendo di più.

Dimostrazioni mostra Grok-1.5 che converte schemi a blocchi in codice Python, genera storie della buonanotte ispirate a dipinti di bambini, crea insiemi di dati CSV da screenshot e persino "espande" i meme. 

Grok-1.5 è in cima alla classifica in alcuni benchmark consolidati come Mathvista e TextVQA e ottiene i punteggi più alti nel nuovo benchmark di xAI, RealWorldQA.

Gli impressionanti benchmark di visione di Grok-1.5. Fonte: xAI

Sotto il cofano, Grok-1.5 è alimentato da un framework di addestramento distribuito personalizzato che consente al team di xAI di prototipare idee e addestrare nuove architetture su scala con il minimo sforzo.

xAI era fondata l'anno scorso e comprende alcuni dei migliori ricercatori di intelligenza artificiale del mondo con l'obiettivo ultra-ambizioso di "capire l'universo". 

Finora abbiamo avuto l'arguto e stravagante Grok-1 che spiega alle persone come sintetizzare gli stupefacenti e critica Musk e Tesla.

Grok è anche collegato al database dei post di X che, tra le altre peculiarità, gli ha dato un certo seguito nonostante non abbia nulla da invidiare ai leader in termini di prestazioni pure. 

Il progetto xAI di Musk sfida l'ecosistema principalmente chiuso dell'IA generativa, rendendo i suoi modelli disponibili a tutti sotto una vera e propria licenze open-source

Insieme a Meta, che ha un intento simile di andare controcorrente rispetto ai concorrenti, la tesi aperta di xAI potrebbe diventare una spina nel fianco degli sforzi di monetizzazione di OpenAI, Microsoft, Anthropic e Google.

RealWorldQA

L'anteprima di Grok-1.5 ha visto anche xAI rivelare il RealWorldQA, un nuovo benchmark composto da oltre 700 immagini, ciascuna accompagnata da una domanda e da una risposta verificabile.

Il set di dati comprende principalmente immagini anonime catturate da veicoli e da altre situazioni del mondo reale.

Il dataset RealWorldQA è stato progettato per valutare le capacità di comprensione spaziale di Grok 1.5 e di altri modelli di IA multimodali. xAI ha ritenuto che altri benchmark fossero carenti in questo campo. 

Grok
Il dataset di benchmark RealWorldQA mira a testare la capacità dei modelli di comprendere le scene naturali. Fonte: xAI

Grok-1.5 supera i concorrenti in RealWorldQA e sarà interessante vedere se prenderà piede.

Sebbene non sia in grado di comprendere l'universo, Grok-1.5 si posizionerà come un altro modello di alto livello in una gamma sempre più ampia.

Questo dimostra anche come l'IA generativa, nella sua forma attuale, stia raggiungendo l'apice dei suoi poteri, anche se forse non per molto. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni