xAI geeft een voorproefje van Grok-1.5 en maakt een nieuwe benchmark genaamd RealWorldQA

14 april 2024

  • xAI van Elon Musk geeft een voorproefje van hun tweede funderingsmodel, Grok-1.5
  • Grok-1.5 concurreert goed met toonaangevende modellen, met name bij vision-taken
  • xAI stelde ook een nieuwe benchmark vast voor het testen van de visievaardigheden van modellen

Elon Musks xAI heeft Grok-1.5 onthuld, een multimodaal AI-model dat is ontworpen om concurrenten te verslaan in het begrijpen van echte scenario's. 

In navolging van anderen, zoals GPT-4V, introduceert de nieuwe Grok-1.5 visuele verwerking om alles te analyseren, van documenten en diagrammen tot grafieken, schermafbeeldingen en foto's.

Grok-1.5 wint ook terrein in tekst-, codeer- en rekentaken, met scores van 50,6% op de MATH-benchmark, 90% op de GSM8K-benchmark en 74,1% op de HumanEval-benchmark. 

Hierdoor valt Grok-1.5 precies in het rijtje zwaargewichten van LLM, met gemiddeld iets lagere scores dan Gemini Pro 1.5, GPT-4 en Claude 3 Opus.

Grok
Grok-1.5's concurrerende benchmarks voor tekst, wiskunde en codering. Bron: xAI

Grok-1.5 biedt ook een langer contextbegrip tot 128K tokens, een 16-voudige toename ten opzichte van zijn voorganger, maar ver achter bij die van Claude 3 Opus en Gemini 1.5 Pro.

Een evaluatie van Needle In A Haystack (NIAH) toonde aan dat Grok-1.5 ingesloten tekst kan vinden binnen contexten met een lengte tot 128K tokens.

Het zijn echter de visievaardigheden van Grok-1.5 die xAI het hardst pusht.

Demo's Grok-1.5 converteert blokkenschema's naar Python-code, genereert verhaaltjes voor het slapengaan geïnspireerd op kinderschilderijen, maakt CSV-datasets van schermafbeeldingen en "expandeert" zelfs memes. 

Grok-1.5 staat bovenaan in een aantal gevestigde benchmarks zoals Mathvista en TextVQA en scoort het hoogst in xAI's nieuw opgezette benchmark, RealWorldQA.

De indrukwekkende vision-benchmarks van Grok-1.5. Bron: xAI

Onder de motorkap wordt Grok-1.5 aangedreven door een op maat gemaakt gedistribueerd trainingsraamwerk dat het xAI-team in staat stelt om met minimale inspanning prototypes te maken van ideeën en nieuwe architecturen op schaal te trainen.

xAI was vorig jaar opgericht en bestaat uit enkele van 's werelds beste AI-onderzoekers met het ultra-ambitieuze doel om "het universum te begrijpen". 

Tot nu toe hebben we de geestige en bizarre Grok-1 die mensen vertelt hoe ze narcotica kunnen synthetiseren en bekritiseert Musk en Tesla.

Grok is ook verbonden met de postdatabase van X, waardoor het, naast andere unieke eigenaardigheden, een behoorlijke aanhang heeft gekregen ondanks het feit dat het de leiders op het gebied van pure prestaties niet in de problemen brengt. 

Musk's xAI-project daagt het voornamelijk closed-source ecosysteem van generatieve AI uit door zijn modellen algemeen beschikbaar te maken onder echte open-source licenties

In combinatie met Meta, dat een soortgelijke intentie heeft om tegen de stroom van concurrenten in te gaan, zou de open stelling van xAI wel eens een doorn in het oog kunnen worden van de monetariseringsinspanningen van OpenAI, Microsoft, Anthropic en Google.

RealWorldQA

Tijdens de preview van Grok-1.5 onthulde xAI ook de RealWorldQA, een nieuwe benchmark bestaande uit meer dan 700 afbeeldingen, elk vergezeld van een vraag en een verifieerbaar antwoord.

De dataset bestaat voornamelijk uit geanonimiseerde beelden van voertuigen en andere echte situaties.

De RealWorldQA dataset is ontworpen om de ruimtelijke begripscapaciteiten van Grok 1.5 en andere multimodale AI-modellen te evalueren. xAI vond dat andere benchmarks op dit gebied tekortschoten. 

Grok
De RealWorldQA benchmark dataset test het vermogen van modellen om natuurlijke scènes te begrijpen. Bron: xAI

Grok-1.5 presteert beter dan concurrenten in RealWorldQA en het zal interessant zijn om te zien of het aanslaat.

Hoewel hij niet in staat is het universum te begrijpen, zal de Grok-1.5 zijn plaats innemen als een nieuw topmodel in een steeds groter wordende line-up.

Dat laat ook zien hoe generatieve AI in zijn huidige vorm het toppunt van zijn kunnen bereikt - maar misschien niet voor lang. 

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden