xAI forhåndsviser Grok-1.5 og oppretter en ny referanseindeks kalt RealWorldQA

14. april 2024

  • Elon Musks xAI forhåndsviste sin andre grunnmodell, Grok-1.5
  • Grok-1.5 konkurrerer godt med ledende modeller, særlig når det gjelder synsoppgaver
  • xAI etablerte også en ny målestokk for testing av modellens synsevner

Elon Musks xAI har avslørt Grok-1.5, en multimodal AI-modell designet for å slå konkurrentene i å forstå scenarier fra den virkelige verden. 

Den nye Grok-1.5 følger i fotsporene til andre, som GPT-4V, og introduserer visuell behandling for å analysere alt fra dokumenter og diagrammer til diagrammer, skjermbilder og fotografier.

Grok-1.5 vinner også terreng i tekst-, kodings- og matteoppgaver, med 50,6% på MATH-referansen, 90% på GSM8K-referansen og 74,1% på HumanEval-referansen. 

Grok-1.5 havner dermed rett i LLM-tungvekterklassen, med litt lavere gjennomsnittspoeng enn Gemini Pro 1.5, GPT-4 og Claude 3 Opus.

Grok
Grok-1.5s konkurransedyktige referanseverdier for tekst, matematikk og koding. Kilde: xAI

Grok-1.5 tilbyr også lengre kontekstforståelse med opptil 128 000 tokens, en 16-dobling sammenlignet med forgjengeren, men et godt stykke bak Claude 3 Opus og Gemini 1.5 Pro.

En NIAH-evaluering (Needle In A Haystack) demonstrerte Grok-1.5s evne til å finne innebygd tekst i kontekster på opptil 128 000 tokens.

Det er imidlertid Grok-1.5s visjonsevner som xAI satser hardest på.

Demoer Vis Grok-1.5 som konverterer blokkskjemaer til Python-kode, genererer godnatthistorier inspirert av barnemalerier, lager CSV-datasett fra skjermbilder og til og med "utvider" memes. 

Grok-1.5 topper resultatlisten i noen etablerte benchmarks som Mathvista og TextVQA, og scorer høyest i xAIs nyetablerte benchmark, RealWorldQA.

Grok-1.5s imponerende referanseverdier for syn. Kilde: xAI

Grok-1.5 drives av et spesialtilpasset rammeverk for distribuert opplæring som gjør det mulig for xAIs team å lage prototyper av ideer og lære opp nye arkitekturer i stor skala med minimal innsats.

xAI var grunnlagt i fjor og inkluderer noen av verdens fremste AI-forskere med det ultraambisiøse målet om å "Forstå universet". 

Så langt har vi fått den vittige og underlige Grok-1 som forteller folk hvordan man syntetiserer narkotika og kritiserer Musk og Tesla.

Grok er også koblet til Xs postdatabase, noe som, blant andre unike særegenheter, har gitt den mange tilhengere, til tross for at den ikke kan måle seg med de ledende på ren ytelse. 

Musks xAI-prosjekt utfordrer generativ AIs hovedsakelig lukkede økosystem, og gjør modellene allment tilgjengelige under ekte lisenser med åpen kildekode

Kombinert med Meta, som har en lignende intensjon om å gå mot strømmen av konkurrenter, kan xAIs åpne tese bli en torn i øyet på OpenAIs, Microsofts, Anthropics og Googles forsøk på å tjene penger.

RealWorldQA

I forbindelse med forhåndsvisningen av Grok-1.5 presenterte xAI også RealWorldQA, en ny referanseindeks som består av over 700 bilder, hvert bilde ledsaget av et spørsmål og et verifiserbart svar.

Datasettet består hovedsakelig av anonymiserte bilder tatt fra kjøretøy og andre virkelige situasjoner.

RealWorldQA-datasettet er utviklet for å evaluere den romlige forståelsen til Grok 1.5 og andre multimodale AI-modeller. xAI mente at andre benchmarks manglet på dette området. 

Grok
RealWorldQA-referansedatasettet skal teste modellenes evne til å forstå naturlige scener. Kilde: xAI

Grok-1.5 utkonkurrerer konkurrentene i RealWorldQA, og det blir interessant å se om den slår gjennom.

Selv om den ikke er i nærheten av å forstå universet, vil Grok-1.5 innta sin plass som nok en toppmodell i en stadig voksende serie.

Det viser også hvordan generativ AI i sin nåværende form er i ferd med å nå toppen av sin styrke - men kanskje ikke så lenge til. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser