xAI förhandsgranskar Grok-1.5 och skapar ett nytt benchmark kallat RealWorldQA

14 april 2024
  • Elon Musks xAI förhandsvisade sin andra grundmodell, Grok-1.5
  • Grok-1.5 står sig väl i konkurrensen med ledande modeller, särskilt när det gäller synuppgifter
  • xAI etablerade också ett nytt riktmärke för att testa modellens synförmåga

Elon Musks xAI har avslöjat Grok-1.5, en multimodal AI-modell som är utformad för att slå konkurrenterna när det gäller att förstå verkliga scenarier. 

Nya Grok-1.5 följer i fotspåren av andra program, som GPT-4V, och introducerar visuell bearbetning för att analysera allt från dokument och diagram till tabeller, skärmdumpar och fotografier.

Grok-1.5 vinner också mark i text-, kodnings- och matematikuppgifter och får 50,6% på MATH-riktmärket, 90% på GSM8K-riktmärket och 74,1% på HumanEval-riktmärket. 

Detta gör att Grok-1.5 hamnar i LLM:s tungviktsklass, med ett genomsnittligt resultat som är något lägre än Gemini Pro 1.5, GPT-4 och Claude 3 Opus.

Grok
Grok-1.5:s konkurrenskraftiga riktmärken för text, matematik och kodning. Källa: xAI

Grok-1.5 erbjuder också längre kontextförståelse upp till 128K tokens, en 16-faldig ökning jämfört med sin föregångare, men långt bakom de som Claude 3 Opus och Gemini 1.5 Pro erbjuder.

En NIAH-utvärdering (Needle In A Haystack) visade Grok-1.5:s förmåga att lokalisera inbäddad text i sammanhang med en längd på upp till 128 000 tokens.

Det är dock Grok-1.5:s visionskompetens som xAI driver hårdast.

Demos visa Grok-1.5 som omvandlar blockscheman till Python-kod, genererar godnattsagor inspirerade av barns målningar, skapar CSV-dataset från skärmdumpar och till och med "expanderar" memes. 

Grok-1.5 toppar resultatlistan i några etablerade benchmarks som Mathvista och TextVQA och får högst poäng i xAI:s nyetablerade benchmark, RealWorldQA.

Grok-1.5:s imponerande vision benchmarks. Källa: xAI

Grok-1.5 drivs av ett anpassat ramverk för distribuerad utbildning som gör det möjligt för xAI:s team att ta fram prototyper och utbilda nya arkitekturer i stor skala med minimal ansträngning.

xAI var grundades förra året och inkluderar några av världens främsta AI-forskare med det ultraambitiösa målet att "förstå universum". 

Hittills har vi fått den kvicka och udda Grok-1 som berättar för människor hur man syntetiserar narkotika och kritiserar Musk och Tesla.

Grok är också ansluten till X:s postdatabas, som bland andra unika egenheter har gett den en hel del följare trots att den inte stör ledarna i ren prestanda. 

Musks xAI-projekt utmanar generativ AI:s ekosystem, som i huvudsak består av slutna källor, och gör dess modeller allmänt tillgängliga under äkta licenser för öppen källkod

Kombinerat med Meta, som har en liknande avsikt att gå emot konkurrenternas korn, kan xAI: s öppna avhandling bli en tagg i intäktsförsörjningsinsatserna från OpenAI, Microsoft, Anthropic och Google.

RealWorldQA

I samband med förhandsvisningen av Grok-1.5 presenterade xAI också RealWorldQA, ett nytt benchmark som består av över 700 bilder, var och en med en fråga och ett verifierbart svar.

Datasetet består huvudsakligen av anonymiserade bilder tagna från fordon och andra verkliga situationer.

RealWorldQA-datasetet är utformat för att utvärdera den rumsliga förståelsen hos Grok 1.5 och andra multimodala AI-modeller. xAI ansåg att andra riktmärken saknade den här avdelningen. 

Grok
Referensdatasetet RealWorldQA syftar till att testa modellernas förmåga att förstå naturliga scener. Källa: xAI

Grok-1.5 överträffar konkurrenterna i RealWorldQA, och det ska bli intressant att se om det får genomslag.

Även om Grok-1.5 inte räcker till för att förstå universum kommer den att bli ytterligare en toppmodell i ett ständigt växande sortiment.

Det visar också hur generativ AI i sin nuvarande form håller på att nå toppen av sin förmåga - men kanske inte så länge till. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×
 
 

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI


 

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".



 
 

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar