Elon Musks xAI har avslørt Grok-1.5, en multimodal AI-modell designet for å slå konkurrentene i å forstå scenarier fra den virkelige verden.
Den nye Grok-1.5 følger i fotsporene til andre, som GPT-4V, og introduserer visuell behandling for å analysere alt fra dokumenter og diagrammer til diagrammer, skjermbilder og fotografier.
Grok-1.5 vinner også terreng i tekst-, kodings- og matteoppgaver, med 50,6% på MATH-referansen, 90% på GSM8K-referansen og 74,1% på HumanEval-referansen.
Grok-1.5 havner dermed rett i LLM-tungvekterklassen, med litt lavere gjennomsnittspoeng enn Gemini Pro 1.5, GPT-4 og Claude 3 Opus.
Grok-1.5 tilbyr også lengre kontekstforståelse med opptil 128 000 tokens, en 16-dobling sammenlignet med forgjengeren, men et godt stykke bak Claude 3 Opus og Gemini 1.5 Pro.
En NIAH-evaluering (Needle In A Haystack) demonstrerte Grok-1.5s evne til å finne innebygd tekst i kontekster på opptil 128 000 tokens.
Det er imidlertid Grok-1.5s visjonsevner som xAI satser hardest på.
Demoer Vis Grok-1.5 som konverterer blokkskjemaer til Python-kode, genererer godnatthistorier inspirert av barnemalerier, lager CSV-datasett fra skjermbilder og til og med "utvider" memes.
Grok-1.5 topper resultatlisten i noen etablerte benchmarks som Mathvista og TextVQA, og scorer høyest i xAIs nyetablerte benchmark, RealWorldQA.
Grok-1.5 drives av et spesialtilpasset rammeverk for distribuert opplæring som gjør det mulig for xAIs team å lage prototyper av ideer og lære opp nye arkitekturer i stor skala med minimal innsats.
xAI var grunnlagt i fjor og inkluderer noen av verdens fremste AI-forskere med det ultraambisiøse målet om å "Forstå universet".
Så langt har vi fått den vittige og underlige Grok-1 som forteller folk hvordan man syntetiserer narkotika og kritiserer Musk og Tesla.
Grok er også koblet til Xs postdatabase, noe som, blant andre unike særegenheter, har gitt den mange tilhengere, til tross for at den ikke kan måle seg med de ledende på ren ytelse.
Musks xAI-prosjekt utfordrer generativ AIs hovedsakelig lukkede økosystem, og gjør modellene allment tilgjengelige under ekte lisenser med åpen kildekode.
Kombinert med Meta, som har en lignende intensjon om å gå mot strømmen av konkurrenter, kan xAIs åpne tese bli en torn i øyet på OpenAIs, Microsofts, Anthropics og Googles forsøk på å tjene penger.
RealWorldQA
I forbindelse med forhåndsvisningen av Grok-1.5 presenterte xAI også RealWorldQA, en ny referanseindeks som består av over 700 bilder, hvert bilde ledsaget av et spørsmål og et verifiserbart svar.
Datasettet består hovedsakelig av anonymiserte bilder tatt fra kjøretøy og andre virkelige situasjoner.
RealWorldQA-datasettet er utviklet for å evaluere den romlige forståelsen til Grok 1.5 og andre multimodale AI-modeller. xAI mente at andre benchmarks manglet på dette området.
Grok-1.5 utkonkurrerer konkurrentene i RealWorldQA, og det blir interessant å se om den slår gjennom.
Selv om den ikke er i nærheten av å forstå universet, vil Grok-1.5 innta sin plass som nok en toppmodell i en stadig voksende serie.
Det viser også hvordan generativ AI i sin nåværende form er i ferd med å nå toppen av sin styrke - men kanskje ikke så lenge til.