Grok LLM-detaljer og hvordan det står seg mot ChatGPT

Elon Musk kunngjorde betalanseringen av xAIs chatbot Grok, og den første statistikken gir oss en idé om hvordan den står seg i forhold til andre modeller.

Den Grok chatbot er basert på xAIs frontier-modell Grok-1, som selskapet har utviklet i løpet av de siste fire månedene. xAI har ikke sagt hvor mange parametere den ble trent med, men kom med noen tall for forgjengeren.

Grok-0, prototypen for den nåværende modellen, ble trent på 33 milliarder parametere, så vi kan sannsynligvis anta at Grok-1 ble trent på minst like mange.

Det høres ikke mye ut, men xAI hevder at Grok-0-ytelsen "nærmer seg LLaMA 2 (70B)-kapasiteten på standard LM-benchmarks", selv om den brukte halvparten av treningsressursene.

I mangel av et parametertall må vi ta selskapet på ordet når det beskriver Grok-1 som "state-of-the-art" og at den er "betydelig kraftigere" enn Grok-0.

Grok-1 ble testet ved å evaluere den på disse standard benchmarkene for maskinlæring:

GSM8k: Matteoppgaver for ungdomsskolen
MMLU: Tverrfaglige flervalgsspørsmål
HumanEval: Oppgave for fullføring av Python-kode
MATH: Matematikkoppgaver for ungdomsskolen og videregående skole skrevet i LaTeX

Her er et sammendrag av resultatene.

Resultater fra Grok-1-referansetesten. Kilde: xAI

Resultatene er interessante fordi de i det minste gir oss en viss pekepinn på hvordan Grok står seg i forhold til andre frontier-modeller.

xAI sier at disse tallene viser at Grok-1 slår "alle andre modeller i sin beregningsklasse" og bare ble slått av modeller som var trent opp med "betydelig større mengder treningsdata og beregningsressurser".

GPT-3.5 har 175 milliarder parametere, så vi kan anta at Grok-1 har mindre enn det, men sannsynligvis mer enn de 33 milliardene som prototypen har.

Grok-chatboten er beregnet på oppgaver som å svare på spørsmål, hente informasjon, skrive kreative tekster og hjelpe til med koding. På grunn av det mindre kontekstvinduet er det mer sannsynlig at den vil bli brukt til kortere interaksjoner enn superprompt-brukstilfeller.

Med en kontekstlengde på 8192 har Grok-1 bare halvparten så lang kontekst som GPT-3.5 har. Dette er en indikasjon på at xAI sannsynligvis hadde til hensikt at Grok-1 skulle bytte ut en lengre kontekst med bedre effektivitet.

Selskapet sier at noe av den nåværende forskningen fokuserer på "forståelse og gjenfinning av lange kontekster", så den neste versjonen av Grok kan godt ha et større kontekstvindu.

Det nøyaktige datasettet som ble brukt til å trene Grok-1 er ikke klart, men det inkluderte nesten helt sikkert tweets på X, og Grok-chatboten har også tilgang til internett i sanntid.

Vi må vente på flere tilbakemeldinger fra betatestere for å få en reell følelse av hvor god modellen faktisk er.

Vil Grok hjelpe oss med å løse livets, universets og altings mysterier? Kanskje ikke helt ennå, men det er en underholdende start.

Grok LLM-detaljer og hvordan det står seg mot ChatGPT

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

Spillbransjen står overfor en midtlivskrise - er AI fremtiden?

OpenAI lanserer sanntids-API og andre funksjoner for utviklere

Californias guvernør Gavin Newsom nedlegger veto mot SB 1047 AI-sikkerhetslov

Hvordan ligger Kina an i AI-kappløpet? Teknologigiganter og oppstartsbedrifter flytter grenser

Grok LLM-detaljer og hvordan det står seg mot ChatGPT

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

Spillbransjen står overfor en midtlivskrise - er AI fremtiden?

OpenAI lanserer sanntids-API og andre funksjoner for utviklere

Californias guvernør Gavin Newsom nedlegger veto mot SB 1047 AI-sikkerhetslov

Hvordan ligger Kina an i AI-kappløpet? Teknologigiganter og oppstartsbedrifter flytter grenser

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI