xAI gibt eine Vorschau auf Grok-1.5 und erstellt einen neuen Benchmark namens RealWorldQA

Elon Musks xAI hat Grok-1.5 vorgestellt, ein multimodales KI-Modell, das die Konkurrenz beim Verstehen realer Szenarien schlagen soll.

Das neue Grok-1.5 tritt in die Fußstapfen anderer Programme wie GPT-4V und ermöglicht die visuelle Verarbeitung von Dokumenten, Diagrammen, Tabellen, Screenshots und Fotos.

Grok-1.5 gewinnt auch bei Text-, Codierungs- und Mathematikaufgaben an Boden und erzielt 50,6% beim MATH-Benchmark, 90% beim GSM8K-Benchmark und 74,1% beim HumanEval-Benchmark.

Damit gehört Grok-1.5 zu den LLM-Schwergewichten, die im Durchschnitt etwas schlechter abschneiden als Gemini Pro 1.5, GPT-4 und Claude 3 Opus.

Grok-1.5 bietet auch ein längeres Kontextverständnis mit bis zu 128K Token, eine 16-fache Steigerung im Vergleich zu seinem Vorgänger, die jedoch weit hinter den Werten von Claude 3 Opus und Gemini 1.5 Pro liegt.

Eine Needle In A Haystack (NIAH)-Evaluierung zeigte die Fähigkeit von Grok-1.5, eingebetteten Text in Kontexten von bis zu 128K Token Länge zu finden.

Die Sehfähigkeit von Grok-1.5 wird von xAI jedoch am stärksten gefördert.

Demos zeigen, wie Grok-1.5 Blockschemata in Python-Code umwandelt, von Kinderbildern inspirierte Gute-Nacht-Geschichten erzeugt, CSV-Datensätze aus Screenshots erstellt und sogar Memes "erweitert".

Grok-1.5 führt die Rangliste in einigen etablierten Benchmarks wie Mathvista und TextVQA an und erzielt die höchste Punktzahl in dem von xAI neu eingeführten Benchmark RealWorldQA.

Grok-1.5's beeindruckende Vision-Benchmarks. Quelle: xAI

Unter der Haube wird Grok-1.5 von einem benutzerdefinierten, verteilten Trainingsframework angetrieben, das es dem xAI-Team ermöglicht, mit minimalem Aufwand Ideen zu prototypisieren und neue Architekturen in großem Maßstab zu trainieren.

xAI wurde letztes Jahr gegründet und umfasst einige der weltbesten KI-Forscher mit dem äußerst ehrgeizigen Ziel, "das Universum zu verstehen".

Bislang haben wir die witzige und ausgefallene Grok-1, die den Leuten erklärt, wie man Rauschgift synthetisiert und kritisiert Musk und Tesla.

Grok ist auch mit der Postdatenbank von X verbunden, was ihm neben anderen einzigartigen Eigenheiten eine große Fangemeinde beschert hat, obwohl es die Spitzenreiter bei der reinen Leistung nicht in Bedrängnis bringt.

Musks xAI-Projekt stellt das überwiegend geschlossene Ökosystem der generativen KI in Frage, indem es seine Modelle allgemein unter echten Open-Source-Lizenzen.

In Kombination mit Meta, das eine ähnliche Absicht hat, sich gegen die Konkurrenz zu stellen, könnte die offene These von xAI ein Dorn im Auge der Monetarisierungsbemühungen von OpenAI, Microsoft, Anthropic und Google werden.

RealWorldQA

Im Rahmen der Grok-1.5-Vorschau stellte xAI auch den RealWorldQA vor, einen neuen Benchmark, der aus über 700 Bildern besteht, die jeweils mit einer Frage und einer überprüfbaren Antwort versehen sind.

Der Datensatz besteht hauptsächlich aus anonymisierten Bildern, die in Fahrzeugen und anderen realen Situationen aufgenommen wurden.

Der RealWorldQA-Datensatz wurde entwickelt, um die räumlichen Verstehensfähigkeiten von Grok 1.5 und anderen multimodalen KI-Modellen zu bewerten. xAI war der Meinung, dass andere Benchmarks in diesem Bereich unzureichend waren.

Grok-1.5 schneidet bei RealWorldQA besser ab als die Konkurrenz, und es wird interessant sein zu sehen, ob es sich durchsetzt.

Auch wenn das Grok-1.5 nicht in der Lage ist, das Universum zu verstehen, wird es seinen Platz als ein weiteres Spitzenmodell in einer immer größer werdenden Produktpalette einnehmen.

Das zeigt auch, dass die generative KI in ihrer derzeitigen Form den Höhepunkt ihrer Leistungsfähigkeit erreicht hat - wenn auch vielleicht nicht mehr lange.

xAI gibt eine Vorschau auf Grok-1.5 und erstellt einen neuen Benchmark namens RealWorldQA

RealWorldQA

Join The Future

Sam Jeans

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

xAI gibt eine Vorschau auf Grok-1.5 und erstellt einen neuen Benchmark namens RealWorldQA

RealWorldQA

Join The Future

Sam Jeans

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

KOSTENLOSES PDF EXKLUSIVMit DailyAI immer einen Schritt voraus

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus