Grok LLM details en hoe het zich verhoudt tot ChatGPT

6 november 2023

Elon Musk kondigde de bètalancering aan van xAI's chatbot Grok en de eerste statistieken geven ons een idee van hoe deze zich verhoudt tot andere modellen.

De Grok chatbot is gebaseerd op xAI's grensverleggende model Grok-1, dat het bedrijf de afgelopen vier maanden heeft ontwikkeld. xAI heeft niet gezegd met hoeveel parameters het is getraind, maar plaagde wel met wat cijfers voor zijn voorganger.

Grok-0, het prototype voor het huidige model, werd getraind op 33 miljard parameters, dus we kunnen waarschijnlijk aannemen dat Grok-1 op minstens evenveel parameters werd getraind.

Dat klinkt niet als veel, maar xAI beweert dat de prestaties van Grok-0 "de mogelijkheden van LLaMA 2 (70B) op standaard LM-benchmarks benaderen", ondanks dat het de helft van de trainingsbronnen gebruikte.

Bij gebrek aan een parametercijfer moeten we het bedrijf op zijn woord geloven wanneer het Grok-1 omschrijft als "state-of-the-art" en dat het "aanzienlijk krachtiger" is dan Grok-0.

Grok-1 werd op de proef gesteld door het te evalueren op deze standaard machine-learning benchmarks:

  • GSM8k: Wiskunde woordproblemen op de middelbare school
  • MMLU: Multidisciplinaire meerkeuzevragen
  • HumanEval: Python-code voltooiingstaak
  • MATH: wiskundeproblemen voor middelbare scholen en middelbare scholen, geschreven in LaTeX

Hier is een samenvatting van de resultaten.

Resultaten Grok-1 benchmarktest. Bron: xAI

De resultaten zijn interessant omdat ze ons op zijn minst een idee geven van hoe Grok zich verhoudt tot andere frontier-modellen.

xAI zegt dat deze cijfers laten zien dat Grok-1 "alle andere modellen in zijn computerklasse" verslaat en alleen werd verslagen door modellen die waren getraind met een "aanzienlijk grotere hoeveelheid trainingsgegevens en computermiddelen".

GPT-3.5 heeft 175 miljard parameters, dus we kunnen aannemen dat Grok-1 minder dan dat heeft, maar waarschijnlijk meer dan de 33 miljard van zijn prototype.

De Grok chatbot is bedoeld voor taken als het beantwoorden van vragen, het ophalen van informatie, creatief schrijven en hulp bij codering. Hij zal eerder worden gebruikt voor kortere interacties dan super prompt use cases vanwege het kleinere contextvenster.

Met een contextlengte van 8.192 heeft Grok-1 maar de helft van de context die GPT-3.5 heeft. Dit is een indicatie dat xAI Grok-1 waarschijnlijk heeft bedoeld om een langere context in te ruilen voor een betere efficiëntie.

Het bedrijf zegt dat een deel van het huidige onderzoek is gericht op "long-context understanding and retrieval", dus de volgende versie van Grok zou wel eens een groter contextvenster kunnen hebben.

De exacte dataset die werd gebruikt om Grok-1 te trainen is niet duidelijk, maar het bevatte vrijwel zeker jouw tweets op X, en de Grok chatbot heeft ook real-time toegang tot het internet.

We zullen moeten wachten op meer feedback van bètatesters om een goed beeld te krijgen van hoe goed het model eigenlijk is.

Zal Grok ons helpen de mysteries van het leven, het universum en alles te ontrafelen? Misschien nog niet helemaal, maar het is een vermakelijk begin.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden