xAI förhandsgranskar Grok-1.5 och skapar ett nytt benchmark kallat RealWorldQA

Elon Musks xAI har avslöjat Grok-1.5, en multimodal AI-modell som är utformad för att slå konkurrenterna när det gäller att förstå verkliga scenarier.

Nya Grok-1.5 följer i fotspåren av andra program, som GPT-4V, och introducerar visuell bearbetning för att analysera allt från dokument och diagram till tabeller, skärmdumpar och fotografier.

Grok-1.5 vinner också mark i text-, kodnings- och matematikuppgifter och får 50,6% på MATH-riktmärket, 90% på GSM8K-riktmärket och 74,1% på HumanEval-riktmärket.

Detta gör att Grok-1.5 hamnar i LLM:s tungviktsklass, med ett genomsnittligt resultat som är något lägre än Gemini Pro 1.5, GPT-4 och Claude 3 Opus.

Grok-1.5 erbjuder också längre kontextförståelse upp till 128K tokens, en 16-faldig ökning jämfört med sin föregångare, men långt bakom de som Claude 3 Opus och Gemini 1.5 Pro erbjuder.

En NIAH-utvärdering (Needle In A Haystack) visade Grok-1.5:s förmåga att lokalisera inbäddad text i sammanhang med en längd på upp till 128 000 tokens.

Det är dock Grok-1.5:s visionskompetens som xAI driver hårdast.

Demos visa Grok-1.5 som omvandlar blockscheman till Python-kod, genererar godnattsagor inspirerade av barns målningar, skapar CSV-dataset från skärmdumpar och till och med "expanderar" memes.

Grok-1.5 toppar resultatlistan i några etablerade benchmarks som Mathvista och TextVQA och får högst poäng i xAI:s nyetablerade benchmark, RealWorldQA.

Grok-1.5:s imponerande vision benchmarks. Källa: xAI

Grok-1.5 drivs av ett anpassat ramverk för distribuerad utbildning som gör det möjligt för xAI:s team att ta fram prototyper och utbilda nya arkitekturer i stor skala med minimal ansträngning.

xAI var grundades förra året och inkluderar några av världens främsta AI-forskare med det ultraambitiösa målet att "förstå universum".

Hittills har vi fått den kvicka och udda Grok-1 som berättar för människor hur man syntetiserar narkotika och kritiserar Musk och Tesla.

Grok är också ansluten till X:s postdatabas, som bland andra unika egenheter har gett den en hel del följare trots att den inte stör ledarna i ren prestanda.

Musks xAI-projekt utmanar generativ AI:s ekosystem, som i huvudsak består av slutna källor, och gör dess modeller allmänt tillgängliga under äkta licenser för öppen källkod.

Kombinerat med Meta, som har en liknande avsikt att gå emot konkurrenternas korn, kan xAI: s öppna avhandling bli en tagg i intäktsförsörjningsinsatserna från OpenAI, Microsoft, Anthropic och Google.

RealWorldQA

I samband med förhandsvisningen av Grok-1.5 presenterade xAI också RealWorldQA, ett nytt benchmark som består av över 700 bilder, var och en med en fråga och ett verifierbart svar.

Datasetet består huvudsakligen av anonymiserade bilder tagna från fordon och andra verkliga situationer.

RealWorldQA-datasetet är utformat för att utvärdera den rumsliga förståelsen hos Grok 1.5 och andra multimodala AI-modeller. xAI ansåg att andra riktmärken saknade den här avdelningen.

Grok-1.5 överträffar konkurrenterna i RealWorldQA, och det ska bli intressant att se om det får genomslag.

Även om Grok-1.5 inte räcker till för att förstå universum kommer den att bli ytterligare en toppmodell i ett ständigt växande sortiment.

Det visar också hur generativ AI i sin nuvarande form håller på att nå toppen av sin förmåga - men kanske inte så länge till.

xAI förhandsgranskar Grok-1.5 och skapar ett nytt benchmark kallat RealWorldQA

RealWorldQA

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

OpenAI lanserar "SearchGPT" för att försöka hålla sig kvar i tätpositionen

Meta släpper Llama 3.1-modeller, håller fast vid öppen strategi

Senaten granskar OpenAI:s säkerhet och styrning efter påståenden från visselblåsare

Googles AI förutspår väder med hjälp av en bråkdel av datorkraften

xAI förhandsgranskar Grok-1.5 och skapar ett nytt benchmark kallat RealWorldQA

RealWorldQA

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

OpenAI lanserar "SearchGPT" för att försöka hålla sig kvar i tätpositionen

Meta släpper Llama 3.1-modeller, håller fast vid öppen strategi

Senaten granskar OpenAI:s säkerhet och styrning efter påståenden från visselblåsare

Googles AI förutspår väder med hjälp av en bråkdel av datorkraften

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI