Forscher finden heraus, dass Gemini nicht einmal GPT-3.5 Turbo schlagen kann

Dezember 22, 2023

Als Google die Veröffentlichung seiner Gemini-Modelle ankündigte, war die Aufregung groß, da das Unternehmen behauptete, dass diese den Angeboten von OpenAI ebenbürtig seien. Das ist vielleicht nicht ganz richtig.

Google sagte, dass seine Zwillinge Ultra Modell besser ist als das GPT-4. Das Modell wurde noch nicht veröffentlicht, also müssen wir die Benchmark-Testergebnisse für bare Münze nehmen. Gemini Pro wurde veröffentlicht und ist laut Google gleichauf mit GPT-3.5.

Forscher der Carnegie Mellon University und der KI-Softwareplattform BerriAI unterzogen Gemini Pro einer Reihe von Aufgaben, um sein Sprachverständnis und seine Fähigkeiten zur Spracherzeugung zu testen.

Sie führten dieselben Tests mit GPT-3.5 Turbo, GPT-4 Turbo und Mistral AIs neuem Modell Mixtral 8x7B.

Ergebnisse

Es überrascht nicht, dass GPT-4 den Sieg davontrug, aber Google wird weniger gespannt sein, wie Gemini Pro gegen GPT 3.5 Turbo abschneidet. Hier eine Zusammenfassung der Ergebnisse des Teams, das Papier sagte: "Das Pro-Modell von Gemini erreicht eine vergleichbare, aber leicht schlechtere Genauigkeit als die aktuelle Version von OpenAIs GPT 3.5 Turbo."

Hier ist eine Zusammenfassung der Ergebnisse.

Vergleich der Modellbewertung für verschiedene Aufgaben. Quelle: arXiv

Die Modelle wurden über die LiteLLM-Schnittstelle von BerriAI abgefragt, wobei jedes Modell genau die gleichen Aufforderungen und das gleiche Bewertungsprotokoll erhielt.

Die Modelle wurden auf Multiple-Choice-Fragen, allgemeines logisches Denken, mathematisches Denken, Codegenerierung, Sprachübersetzung und die Funktion als Web-Agent getestet.

Einer der Gründe für das schlechte Abschneiden von Gemini Pro bei den Multiple-Choice-Fragen ist, dass das Programm eine starke Tendenz zur Positionierung aufweist. Es wählte oft die Antwort in Position D, ob sie nun richtig war oder nicht. Interessanterweise ist dies etwas, das auch Microsofts Medprompt löst sich mit Mischen.

Obwohl Gemini Pro bei einigen Tests unterlegen war, schlug es GPT-3.5 Turbo in zwei Bereichen, nämlich bei der Wortsortortierung und der Symbolmanipulation und -übersetzung.

Bei allen Übersetzungsaufgaben, die Gemini Pro erledigte, schnitt es besser ab als alle anderen Modelle, einschließlich GPT-4. Das Endergebnis von Gemini Pro bei den Übersetzungstests lag allerdings unter dem von GPT-3.5, da es sich weigerte, einige Anfragen zu bearbeiten, als seine übereifrigen Leitplanken für die Inhaltsmoderation anschlugen.

Na und?

Google bestreitet die Zahlen, zu denen die Forscher gekommen sind, und besteht darauf, dass seine Zahlen zeigen, dass Gemini Pro gleichwertig oder besser als GPT-3.5 ist. Wenn wir die zahllosen Variablen berücksichtigen und Google eine gewisse Nachsicht gewähren, könnten wir den Unterschied aufteilen und sagen, dass Gemini Pro und GPT-3.5 so ziemlich gleich sind.

Das Wichtigste dabei ist, dass Gemini Pro, ein brandneues Modell, das Google monatelang entwickelt hat, nicht gegen ein Modell ankommt, das seit mehr als einem Jahr auf dem Markt ist und über ChatGPT kostenlos genutzt werden kann.

Gemini Ultra wird voraussichtlich Anfang 2024 auf den Markt kommen. Wird es seinem Anspruch gerecht werden, besser zu sein als GPT-4? Hoffen wir, dass Professor Graham Neubig und sein Team bald ähnliche Benchmarking-Tests durchführen können.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen