xAI gibt eine Vorschau auf Grok-1.5 und erstellt einen neuen Benchmark namens RealWorldQA

14. April 2024

  • Elon Musks xAI hat ihr zweites Basismodell, Grok-1.5, vorgestellt
  • Grok-1.5 konkurriert gut mit führenden Modellen, insbesondere bei Sehaufgaben
  • xAI hat auch einen neuen Maßstab für die Prüfung der Sehfähigkeiten von Modellen gesetzt

Elon Musks xAI hat Grok-1.5 vorgestellt, ein multimodales KI-Modell, das die Konkurrenz beim Verstehen realer Szenarien schlagen soll. 

Das neue Grok-1.5 tritt in die Fußstapfen anderer Programme wie GPT-4V und ermöglicht die visuelle Verarbeitung von Dokumenten, Diagrammen, Tabellen, Screenshots und Fotos.

Grok-1.5 gewinnt auch bei Text-, Codierungs- und Mathematikaufgaben an Boden und erzielt 50,6% beim MATH-Benchmark, 90% beim GSM8K-Benchmark und 74,1% beim HumanEval-Benchmark. 

Damit gehört Grok-1.5 zu den LLM-Schwergewichten, die im Durchschnitt etwas schlechter abschneiden als Gemini Pro 1.5, GPT-4 und Claude 3 Opus.

Grok
Grok-1.5's wettbewerbsfähige Text-, Mathe- und Codierungsbenchmarks. Quelle: xAI

Grok-1.5 bietet auch ein längeres Kontextverständnis mit bis zu 128K Token, eine 16-fache Steigerung im Vergleich zu seinem Vorgänger, die jedoch weit hinter den Werten von Claude 3 Opus und Gemini 1.5 Pro liegt.

Eine Needle In A Haystack (NIAH)-Evaluierung zeigte die Fähigkeit von Grok-1.5, eingebetteten Text in Kontexten von bis zu 128K Token Länge zu finden.

Die Sehfähigkeit von Grok-1.5 wird von xAI jedoch am stärksten gefördert.

Demos zeigen, wie Grok-1.5 Blockschemata in Python-Code umwandelt, von Kinderbildern inspirierte Gute-Nacht-Geschichten erzeugt, CSV-Datensätze aus Screenshots erstellt und sogar Memes "erweitert". 

Grok-1.5 führt die Rangliste in einigen etablierten Benchmarks wie Mathvista und TextVQA an und erzielt die höchste Punktzahl in dem von xAI neu eingeführten Benchmark RealWorldQA.

Grok-1.5's beeindruckende Vision-Benchmarks. Quelle: xAI

Unter der Haube wird Grok-1.5 von einem benutzerdefinierten, verteilten Trainingsframework angetrieben, das es dem xAI-Team ermöglicht, mit minimalem Aufwand Ideen zu prototypisieren und neue Architekturen in großem Maßstab zu trainieren.

xAI wurde letztes Jahr gegründet und umfasst einige der weltbesten KI-Forscher mit dem äußerst ehrgeizigen Ziel, "das Universum zu verstehen". 

Bislang haben wir die witzige und ausgefallene Grok-1, die den Leuten erklärt, wie man Rauschgift synthetisiert und kritisiert Musk und Tesla.

Grok ist auch mit der Postdatenbank von X verbunden, was ihm neben anderen einzigartigen Eigenheiten eine große Fangemeinde beschert hat, obwohl es die Spitzenreiter bei der reinen Leistung nicht in Bedrängnis bringt. 

Musks xAI-Projekt stellt das überwiegend geschlossene Ökosystem der generativen KI in Frage, indem es seine Modelle allgemein unter echten Open-Source-Lizenzen

In Kombination mit Meta, das eine ähnliche Absicht hat, sich gegen die Konkurrenz zu stellen, könnte die offene These von xAI ein Dorn im Auge der Monetarisierungsbemühungen von OpenAI, Microsoft, Anthropic und Google werden.

RealWorldQA

Im Rahmen der Grok-1.5-Vorschau stellte xAI auch den RealWorldQA vor, einen neuen Benchmark, der aus über 700 Bildern besteht, die jeweils mit einer Frage und einer überprüfbaren Antwort versehen sind.

Der Datensatz besteht hauptsächlich aus anonymisierten Bildern, die in Fahrzeugen und anderen realen Situationen aufgenommen wurden.

Der RealWorldQA-Datensatz wurde entwickelt, um die räumlichen Verstehensfähigkeiten von Grok 1.5 und anderen multimodalen KI-Modellen zu bewerten. xAI war der Meinung, dass andere Benchmarks in diesem Bereich unzureichend waren. 

Grok
Mit dem RealWorldQA-Benchmark-Datensatz soll die Fähigkeit der Modelle getestet werden, natürliche Szenen zu verstehen. Quelle: xAI

Grok-1.5 schneidet bei RealWorldQA besser ab als die Konkurrenz, und es wird interessant sein zu sehen, ob es sich durchsetzt.

Auch wenn das Grok-1.5 nicht in der Lage ist, das Universum zu verstehen, wird es seinen Platz als ein weiteres Spitzenmodell in einer immer größer werdenden Produktpalette einnehmen.

Das zeigt auch, dass die generative KI in ihrer derzeitigen Form den Höhepunkt ihrer Leistungsfähigkeit erreicht hat - wenn auch vielleicht nicht mehr lange. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen