xAI geeft een voorproefje van Grok-1.5 en creëert een nieuwe benchmark genaamd RealWorldQA

Elon Musks xAI heeft Grok-1.5 onthuld, een multimodaal AI-model dat is ontworpen om concurrenten te verslaan in het begrijpen van echte scenario's.

In navolging van anderen, zoals GPT-4V, introduceert de nieuwe Grok-1.5 visuele verwerking om alles te analyseren, van documenten en diagrammen tot grafieken, schermafbeeldingen en foto's.

Grok-1.5 wint ook terrein in tekst-, codeer- en rekentaken, met scores van 50,6% op de MATH-benchmark, 90% op de GSM8K-benchmark en 74,1% op de HumanEval-benchmark.

Hierdoor valt Grok-1.5 precies in het rijtje zwaargewichten van LLM, met gemiddeld iets lagere scores dan Gemini Pro 1.5, GPT-4 en Claude 3 Opus.

Grok-1.5 biedt ook een langer contextbegrip tot 128K tokens, een 16-voudige toename ten opzichte van zijn voorganger, maar ver achter bij die van Claude 3 Opus en Gemini 1.5 Pro.

Een evaluatie van Needle In A Haystack (NIAH) toonde aan dat Grok-1.5 ingesloten tekst kan vinden binnen contexten met een lengte tot 128K tokens.

Het zijn echter de visievaardigheden van Grok-1.5 die xAI het hardst pusht.

Demo's Grok-1.5 converteert blokkenschema's naar Python-code, genereert verhaaltjes voor het slapengaan geïnspireerd op kinderschilderijen, maakt CSV-datasets van schermafbeeldingen en "expandeert" zelfs memes.

Grok-1.5 staat bovenaan in een aantal gevestigde benchmarks zoals Mathvista en TextVQA en scoort het hoogst in xAI's nieuw opgezette benchmark, RealWorldQA.

De indrukwekkende vision-benchmarks van Grok-1.5. Bron: xAI

Onder de motorkap wordt Grok-1.5 aangedreven door een op maat gemaakt gedistribueerd trainingsraamwerk dat het xAI-team in staat stelt om met minimale inspanning prototypes te maken van ideeën en nieuwe architecturen op schaal te trainen.

xAI was vorig jaar opgericht en bestaat uit enkele van 's werelds beste AI-onderzoekers met het ultra-ambitieuze doel om "het universum te begrijpen".

Tot nu toe hebben we de geestige en bizarre Grok-1 die mensen vertelt hoe ze narcotica kunnen synthetiseren en bekritiseert Musk en Tesla.

Grok is ook verbonden met de postdatabase van X, waardoor het, naast andere unieke eigenaardigheden, een behoorlijke aanhang heeft gekregen ondanks het feit dat het de leiders op het gebied van pure prestaties niet in de problemen brengt.

Musk's xAI-project daagt het voornamelijk closed-source ecosysteem van generatieve AI uit door zijn modellen algemeen beschikbaar te maken onder echte open-source licenties.

In combinatie met Meta, dat een soortgelijke intentie heeft om tegen de stroom van concurrenten in te gaan, zou de open stelling van xAI wel eens een doorn in het oog kunnen worden van de monetariseringsinspanningen van OpenAI, Microsoft, Anthropic en Google.

RealWorldQA

Tijdens de preview van Grok-1.5 onthulde xAI ook de RealWorldQA, een nieuwe benchmark bestaande uit meer dan 700 afbeeldingen, elk vergezeld van een vraag en een verifieerbaar antwoord.

De dataset bestaat voornamelijk uit geanonimiseerde beelden van voertuigen en andere echte situaties.

De RealWorldQA dataset is ontworpen om de ruimtelijke begripscapaciteiten van Grok 1.5 en andere multimodale AI-modellen te evalueren. xAI vond dat andere benchmarks op dit gebied tekortschoten.

Grok-1.5 presteert beter dan concurrenten in RealWorldQA en het zal interessant zijn om te zien of het aanslaat.

Hoewel hij niet in staat is het universum te begrijpen, zal de Grok-1.5 zijn plaats innemen als een nieuw topmodel in een steeds groter wordende line-up.

Dat laat ook zien hoe generatieve AI in zijn huidige vorm het toppunt van zijn kunnen bereikt - maar misschien niet voor lang.

xAI geeft een voorproefje van Grok-1.5 en maakt een nieuwe benchmark genaamd RealWorldQA

RealWorldQA

Doe mee met de toekomst

Sam Jeans

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

xAI geeft een voorproefje van Grok-1.5 en maakt een nieuwe benchmark genaamd RealWorldQA

RealWorldQA

Doe mee met de toekomst

Sam Jeans

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXCLUSIEFBlijf voorop met DailyAI

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI