xAI forhåndsviser Grok-1.5 og opretter et nyt benchmark kaldet RealWorldQA

14. april 2024

  • Elon Musks xAI gav en forsmag på deres anden grundmodel, Grok-1.5
  • Grok-1.5 konkurrerer godt med førende modeller, især i synsopgaver
  • xAI etablerede også et nyt benchmark for test af modellers synsevner

Elon Musks xAI har afsløret Grok-1.5, en multimodal AI-model, der er designet til at slå konkurrenterne i at forstå scenarier fra den virkelige verden. 

Den nye Grok-1.5 følger i fodsporene på andre som GPT-4V og introducerer visuel behandling til at analysere alt fra dokumenter og diagrammer til diagrammer, skærmbilleder og fotografier.

Grok-1.5 vinder også terræn i tekst-, kodnings- og matematikopgaver og scorer 50,6% på MATH-benchmarket, 90% på GSM8K-benchmarket og 74,1% på HumanEval-benchmarket. 

Det kaster Grok-1.5 direkte ind i LLM-sværvægtsgruppen med et gennemsnit, der er lidt lavere end Gemini Pro 1.5, GPT-4 og Claude 3 Opus.

Grok
Grok-1.5's konkurrencedygtige benchmarks for tekst, matematik og kodning. Kilde: xAI

Grok-1.5 tilbyder også længere kontekstforståelse på op til 128K tokens, en 16-dobling i forhold til forgængeren, men et godt stykke under det, Claude 3 Opus og Gemini 1.5 Pro kan præstere.

En evaluering af Needle In A Haystack (NIAH) demonstrerede Grok-1.5's evne til at finde indlejret tekst i kontekster på op til 128K tokens i længden.

Det er dog Grok-1.5's synsfærdigheder, som xAI presser hårdest.

Demoer Vis Grok-1.5, der konverterer blokskemaer til Python-kode, genererer godnathistorier inspireret af børnemalerier, skaber CSV-datasæt ud fra skærmbilleder og endda "udvider" memes. 

Grok-1.5 topper ranglisten i nogle etablerede benchmarks som Mathvista og TextVQA og scorer højest i xAI's nyetablerede benchmark, RealWorldQA.

Grok-1.5's imponerende syns-benchmarks. Kilde: xAI

Under motorhjelmen drives Grok-1.5 af en brugerdefineret, distribueret træningsramme, der gør det muligt for xAI's team at prototype ideer og træne nye arkitekturer i stor skala med minimal indsats.

xAI var grundlagt sidste år og omfatter nogle af verdens bedste AI-forskere med det ultraambitiøse mål at "Forstå universet". 

Indtil videre har vi den vittige og besynderlige Grok-1, der fortæller folk, hvordan man syntetiserer narkotika og kritiserer Musk og Tesla.

Grok er også forbundet med X's postdatabase, som blandt andre unikke særheder har givet den en hel del tilhængere på trods af, at den ikke kan måle sig med de førende i ren ydeevne. 

Musks xAI-projekt udfordrer generativ AI's primært lukkede økosystem ved at gøre modellerne generelt tilgængelige under ægte open source-licenser

Kombineret med Meta, som har en lignende intention om at gå imod konkurrenterne, kan xAI's åbne tese blive en torn i øjet på OpenAI's, Microsofts, Anthropics og Googles bestræbelser på at tjene penge.

RealWorldQA

I forbindelse med Grok-1.5's preview afslørede xAI også RealWorldQA, et nyt benchmark bestående af over 700 billeder, som hver især er ledsaget af et spørgsmål og et verificerbart svar.

Datasættet består primært af anonymiserede billeder taget fra køretøjer og andre situationer i den virkelige verden.

RealWorldQA-datasættet er designet til at evaluere den rumlige forståelse i Grok 1.5 og andre multimodale AI-modeller. xAI mente, at andre benchmarks manglede i denne afdeling. 

Grok
RealWorldQA-benchmarkdatasættet har til formål at teste modellernes evne til at forstå naturlige scener. Kilde: xAI

Grok-1.5 klarer sig bedre end konkurrenterne i RealWorldQA, og det bliver interessant at se, om den slår igennem.

Selv om den ikke kan forstå universet, vil Grok-1.5 indtage sin plads som endnu en topmodel i et stadigt voksende sortiment.

Det viser også, hvordan generativ AI i sin nuværende form er ved at nå toppen af sin formåen - men måske ikke så længe endnu. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser