xAI forhåndsviser Grok-1.5 og opretter et nyt benchmark kaldet RealWorldQA

Elon Musks xAI har afsløret Grok-1.5, en multimodal AI-model, der er designet til at slå konkurrenterne i at forstå scenarier fra den virkelige verden.

Den nye Grok-1.5 følger i fodsporene på andre som GPT-4V og introducerer visuel behandling til at analysere alt fra dokumenter og diagrammer til diagrammer, skærmbilleder og fotografier.

Grok-1.5 vinder også terræn i tekst-, kodnings- og matematikopgaver og scorer 50,6% på MATH-benchmarket, 90% på GSM8K-benchmarket og 74,1% på HumanEval-benchmarket.

Det kaster Grok-1.5 direkte ind i LLM-sværvægtsgruppen med et gennemsnit, der er lidt lavere end Gemini Pro 1.5, GPT-4 og Claude 3 Opus.

Grok-1.5 tilbyder også længere kontekstforståelse på op til 128K tokens, en 16-dobling i forhold til forgængeren, men et godt stykke under det, Claude 3 Opus og Gemini 1.5 Pro kan præstere.

En evaluering af Needle In A Haystack (NIAH) demonstrerede Grok-1.5's evne til at finde indlejret tekst i kontekster på op til 128K tokens i længden.

Det er dog Grok-1.5's synsfærdigheder, som xAI presser hårdest.

Demoer Vis Grok-1.5, der konverterer blokskemaer til Python-kode, genererer godnathistorier inspireret af børnemalerier, skaber CSV-datasæt ud fra skærmbilleder og endda "udvider" memes.

Grok-1.5 topper ranglisten i nogle etablerede benchmarks som Mathvista og TextVQA og scorer højest i xAI's nyetablerede benchmark, RealWorldQA.

Grok-1.5's imponerende syns-benchmarks. Kilde: xAI

Under motorhjelmen drives Grok-1.5 af en brugerdefineret, distribueret træningsramme, der gør det muligt for xAI's team at prototype ideer og træne nye arkitekturer i stor skala med minimal indsats.

xAI var grundlagt sidste år og omfatter nogle af verdens bedste AI-forskere med det ultraambitiøse mål at "Forstå universet".

Indtil videre har vi den vittige og besynderlige Grok-1, der fortæller folk, hvordan man syntetiserer narkotika og kritiserer Musk og Tesla.

Grok er også forbundet med X's postdatabase, som blandt andre unikke særheder har givet den en hel del tilhængere på trods af, at den ikke kan måle sig med de førende i ren ydeevne.

Musks xAI-projekt udfordrer generativ AI's primært lukkede økosystem ved at gøre modellerne generelt tilgængelige under ægte open source-licenser.

Kombineret med Meta, som har en lignende intention om at gå imod konkurrenterne, kan xAI's åbne tese blive en torn i øjet på OpenAI's, Microsofts, Anthropics og Googles bestræbelser på at tjene penge.

RealWorldQA

I forbindelse med Grok-1.5's preview afslørede xAI også RealWorldQA, et nyt benchmark bestående af over 700 billeder, som hver især er ledsaget af et spørgsmål og et verificerbart svar.

Datasættet består primært af anonymiserede billeder taget fra køretøjer og andre situationer i den virkelige verden.

RealWorldQA-datasættet er designet til at evaluere den rumlige forståelse i Grok 1.5 og andre multimodale AI-modeller. xAI mente, at andre benchmarks manglede i denne afdeling.

Grok-1.5 klarer sig bedre end konkurrenterne i RealWorldQA, og det bliver interessant at se, om den slår igennem.

Selv om den ikke kan forstå universet, vil Grok-1.5 indtage sin plads som endnu en topmodel i et stadigt voksende sortiment.

Det viser også, hvordan generativ AI i sin nuværende form er ved at nå toppen af sin formåen - men måske ikke så længe endnu.

xAI forhåndsviser Grok-1.5 og opretter et nyt benchmark kaldet RealWorldQA

RealWorldQA

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

xAI forhåndsviser Grok-1.5 og opretter et nyt benchmark kaldet RealWorldQA

RealWorldQA

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVTVær på forkant med DailyAI

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI