Grok LLM-detaljer og hvordan det står seg mot ChatGPT

6. november 2023

Elon Musk kunngjorde betalanseringen av xAIs chatbot Grok, og den første statistikken gir oss en idé om hvordan den står seg i forhold til andre modeller.

Den Grok chatbot er basert på xAIs frontier-modell Grok-1, som selskapet har utviklet i løpet av de siste fire månedene. xAI har ikke sagt hvor mange parametere den ble trent med, men kom med noen tall for forgjengeren.

Grok-0, prototypen for den nåværende modellen, ble trent på 33 milliarder parametere, så vi kan sannsynligvis anta at Grok-1 ble trent på minst like mange.

Det høres ikke mye ut, men xAI hevder at Grok-0-ytelsen "nærmer seg LLaMA 2 (70B)-kapasiteten på standard LM-benchmarks", selv om den brukte halvparten av treningsressursene.

I mangel av et parametertall må vi ta selskapet på ordet når det beskriver Grok-1 som "state-of-the-art" og at den er "betydelig kraftigere" enn Grok-0.

Grok-1 ble testet ved å evaluere den på disse standard benchmarkene for maskinlæring:

  • GSM8k: Matteoppgaver for ungdomsskolen
  • MMLU: Tverrfaglige flervalgsspørsmål
  • HumanEval: Oppgave for fullføring av Python-kode
  • MATH: Matematikkoppgaver for ungdomsskolen og videregående skole skrevet i LaTeX

Her er et sammendrag av resultatene.

Resultater fra Grok-1-referansetesten. Kilde: xAI

Resultatene er interessante fordi de i det minste gir oss en viss pekepinn på hvordan Grok står seg i forhold til andre frontier-modeller.

xAI sier at disse tallene viser at Grok-1 slår "alle andre modeller i sin beregningsklasse" og bare ble slått av modeller som var trent opp med "betydelig større mengder treningsdata og beregningsressurser".

GPT-3.5 har 175 milliarder parametere, så vi kan anta at Grok-1 har mindre enn det, men sannsynligvis mer enn de 33 milliardene som prototypen har.

Grok-chatboten er beregnet på oppgaver som å svare på spørsmål, hente informasjon, skrive kreative tekster og hjelpe til med koding. På grunn av det mindre kontekstvinduet er det mer sannsynlig at den vil bli brukt til kortere interaksjoner enn superprompt-brukstilfeller.

Med en kontekstlengde på 8192 har Grok-1 bare halvparten så lang kontekst som GPT-3.5 har. Dette er en indikasjon på at xAI sannsynligvis hadde til hensikt at Grok-1 skulle bytte ut en lengre kontekst med bedre effektivitet.

Selskapet sier at noe av den nåværende forskningen fokuserer på "forståelse og gjenfinning av lange kontekster", så den neste versjonen av Grok kan godt ha et større kontekstvindu.

Det nøyaktige datasettet som ble brukt til å trene Grok-1 er ikke klart, men det inkluderte nesten helt sikkert tweets på X, og Grok-chatboten har også tilgang til internett i sanntid.

Vi må vente på flere tilbakemeldinger fra betatestere for å få en reell følelse av hvor god modellen faktisk er.

Vil Grok hjelpe oss med å løse livets, universets og altings mysterier? Kanskje ikke helt ennå, men det er en underholdende start.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser