Nutzer bewerten die Leistung des GPT-4 Turbo kritisch

12. November 2023

GPT-4 Turbo

Seit der kürzlichen Einführung von GPT-4 Turbo, der neuesten Version des Sprachmodells von OpenAI, hat die KI-Gemeinschaft mit gemischten Reaktionen aufgewartet. 

Während OpenAI GPT-4 Turbo als leistungsfähigere und effizientere Version seines Vorgängers anpries, deuten Erfahrungsberichte von Nutzern darauf hin, dass die Erfahrungen unterschiedlich ausfallen, insbesondere in Bereichen, die logisches Denken und Programmierfähigkeiten auf hohem Niveau erfordern.

Konkrete Beweise aus Benchmark-Tests werden gerade erst bekannt. 

In einem unabhängigen Benchmark-Test bewertete ein Anwender GPT-4 Turbo gegen GPT-4 und GPT-3.5 anhand von Abschnitten eines offiziellen SAT-Lesetests von 2008-2009.

Die Ergebnisse zeigten einen bemerkenswerten Unterschied in der Leistung:

  • GPT-3.5 erzielte 690 Punkte, bei 10 falschen Antworten.
  • GPT-4 erzielte 770 Punkte, mit nur 3 falschen Antworten.
  • GPT-4 Turbo, getestet in zwei Modi, erzielte 740 (5 falsch) bzw. 730 (6 falsch).

Andere frühe Benchmarks sagen etwas anderes

Ein weiterer vorläufiger Test wurde durchgeführt, um die Fähigkeiten dieser neuen Version bei der Codebearbeitung zu bewerten, mit Aiderein Open-Source-Befehlszeilen-Tool, das für die KI-gestützte Codebearbeitung entwickelt wurde.

Dabei wurde festgestellt, dass der GPT-4 Turbo (GPT-4-1106) eine bessere Leistung bei Codierungsaufgaben zeigt, was natürlich eine andere Aufgabe ist als der oben genannte Test zur natürlichen Sprache.

Für den Benchmark wurde Aider eingesetzt, um die Interaktion zwischen dem Benutzer und dem GPT-4-Modell zur Bearbeitung von Code in lokalen Git-Repositories zu erleichtern. Der Test umfasste 133 Python-Programmierübungen, die eine strukturierte und quantitative Bewertung der Effizienz und Genauigkeit der Codebearbeitung durch das Modell ermöglichten.

Der Prozess war in zwei Phasen gegliedert:

  1. Aider versorgte das GPT-4-Modell mit der ursprünglichen Codedatei, die Funktionsstümpfe und natürlichsprachliche Problembeschreibungen enthielt. Die erste Reaktion des Modells wurde direkt zur Bearbeitung des Codes verwendet.
  2. Wenn der Code die Testsuite nicht bestand, präsentierte Aider dem Modell die Testfehlerausgabe und forderte es auf, den Code zu korrigieren.

GPT-4-1106 - Ergebnisse der Vorprüfung

  • Verbesserung der Geschwindigkeit: Das Vorschaumodell GPT-4-1106 zeigte eine deutliche Steigerung der Verarbeitungsgeschwindigkeit im Vergleich zu seinen Vorgängermodellen.
  • Genauigkeit beim ersten Versuch: Das Modell zeigte eine Erfolgsquote von 53% bei der korrekten Lösung der Aufgaben beim ersten Versuch, was eine Verbesserung gegenüber der Erfolgsquote von 46 bis 47% bei früheren GPT-4-Versionen darstellt.
  • Leistung nach Korrekturen: Nachdem dem neuen Modell eine zweite Chance gegeben wurde, den Code aufgrund von Fehlern in der Testreihe zu korrigieren, erreichte es ein ähnliches Leistungsniveau (~62%) wie die älteren GPT-4-Modelle, mit Erfolgsquoten von etwa 63 bis 64%. 

Benutzererfahrungen bei Programmieraufgaben

Entwickler, die GPT-4 Turbo für kodierungsbezogene Aufgaben verwenden, haben über gemischte Erfahrungen berichtet.

Eine Vielzahl von Nutzern auf X und Reddit hat festgestellt, dass das Modell nicht mehr in der Lage ist, Anweisungen genau zu befolgen oder den Kontext in Programmierszenarien effektiv zu behalten. Einige kehrten zur Verwendung von GPT-4 zurück, nachdem sie mit dem neuen Modell Probleme hatten.

Ein Benutzer drückte seine Frustration auf Reddit aus und erklärte: "Ja, es ist ziemlich schlimm. Ich lasse GPT-4 mit einigen Skripten laufen und führe Stichprobentests durch, um sicherzustellen, dass es genauso funktioniert. All diese Tests sind mit der neuen GPT-4-Vorschau fehlgeschlagen, und ich musste auf die alte zurückgreifen. Es kann nicht vernünftig arbeiten."

Ein anderer bemerkte: "Es ist verrückt, was einige der Antworten sind, es bringt mich dazu, mein Abonnement zu kündigen".

Die Anekdoten sind nahezu endlos. Ein anderer sagt: "Ich habe etwa 100 Zeilen Code eingefügt und nur ein paar ganz einfache Fragen gestellt. Der Code, den er mir zurückschickte, war völlig anders als der, den ich ihm gerade gezeigt hatte, und fast völlig falsch. Ich habe noch nie erlebt, dass es so schlecht halluziniert hat."

Trotz der Nutzerberichte hat OpenAI die Fortschritte in der GPT-4 Turbound hebt die bis April 2023 verlängerte Wissensfrist und ein erweitertes Kontextfenster hervor, das mehr als 300 Seiten Text verarbeiten kann. 

OpenAI wies auch auf die optimierte Leistung des Modells hin, die es kostengünstiger macht. Einzelheiten zu den spezifischen Optimierungstechniken und ihren Auswirkungen auf die Fähigkeiten des Modells bleiben jedoch begrenzt.

Der CEO von OpenAI, Sam Altman, gab bekannt, dass Turbo heute überarbeitet wurde, und forderte die Nutzer auf, das Modell erneut auszuprobieren, wobei er einräumte, dass es Probleme gebe.

Das Unternehmen sah sich mit ähnlicher Kritik an den Versionen von GPT-4 konfrontiert, die anscheinend Leistungsabfall seit seiner Veröffentlichung

OpenAI steht wegen Zensur in der Kritik

ChatGPT, entwickelt von OpenAI, wurde wegen seines Umgangs mit Zensur und möglicher politischer Voreingenommenheit kritisch beäugt. 

Kritiker bemängeln, dass das Modell manchmal dazu neigt, bestimmte Themen zu vermeiden oder zu verzerren, insbesondere solche, die als politisch heikel oder umstritten gelten. 

Dieses Verhalten wird häufig auf die Trainingsdaten und die Moderationsrichtlinien zurückgeführt, die die KI-Reaktionen beeinflussen. 

Diese Richtlinien zielen darauf ab, die Verbreitung von Fehlinformationen, Hassreden und parteiischen Inhalten zu verhindern, aber einige Nutzer sind der Meinung, dass dieser Ansatz zu einer Überkorrektur führt, die zu einer wahrgenommenen Zensur oder Voreingenommenheit bei den Antworten der KI führt.

Im Gegensatz dazu, xAIs Grok hat sich durch seinen scheinbar weniger restriktiven Ansatz bei der Moderation von Inhalten hervorgetan. 

Die Nutzer von Grok haben festgestellt, dass die Plattform eher bereit ist, sich mit einer größeren Bandbreite von Themen zu befassen, einschließlich solcher, die von ChatGPT gefiltert oder vorsichtiger behandelt werden könnten. 

Grok, das von Elon Musk angeheizt wurde, gilt als "Schwert" der "wachen KI", für die ChatGPT ein Aushängeschild ist. 

Zusammenfassend lässt sich sagen, dass Benchmark-Tests zur Leistung von GPT-4 Turbo derzeit nur in sehr begrenztem Umfang möglich sind und dass es problematisch ist, sich auf Erfahrungsberichte zu verlassen.

Der wachsende Erfolg von OpenAI hat das Unternehmen fest ins Fadenkreuz der Öffentlichkeit gerückt, insbesondere mit der Veröffentlichung von xAIs Grok und seinem Widerstand gegen "woke AI". 

Eine objektive Beurteilung der Leistung von GPT-4 Turbo ist derzeit äußerst schwierig, aber die Debatte darüber, ob sich die Ergebnisse von ChatGPT wirklich verbessern, wird weitergehen. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen