Ist Reflection 70B der leistungsfähigste Open-Source-LLM oder ein Betrug?

9. September 2024

  • Matt Shumer behauptet, sein Reflection 70B LLM sei das leistungsfähigste Open-Source-Modell
  • "Reflection-Tuning" stoppt die Halluzinationen des Reflection 70B und liefert außergewöhnliche Benchmark-Ergebnisse
  • Einige frühe Nutzer sagen, das Modell sei ein Betrug und nur eine Hülle für bestehende Modelle

Der Gründer und CEO von HyperWrite, Matt Shumer, gab bekannt, dass sein neues Modell, Reflection 70B, mit einem einfachen Trick LLM-Halluzinationen löst und beeindruckende Benchmark-Ergebnisse liefert, die größere und sogar geschlossene Modelle wie GPT-4o schlagen.

Shumer arbeitete mit dem Anbieter synthetischer Daten, Glaive, zusammen, um das neue Modell zu erstellen, das auf dem Llama 3.1-70B Instruct Modell von Meta basiert.

In der Ankündigung zum Start auf Hugging Face sagte Shumer. "Reflection Llama-3.1 70B ist (derzeit) das weltweit beste Open-Source-LLM, trainiert mit einer neuen Technik namens Reflection-Tuning, die einem LLM beibringt, Fehler in seiner Argumentation zu erkennen und den Kurs zu korrigieren."

Wenn Shumer einen Weg gefunden hat, das Problem der KI-Halluzinationen zu lösen, dann wäre das unglaublich. Die Benchmarks, die er mitgeteilt hat, scheinen darauf hinzudeuten, dass Reflection 70B anderen Modellen weit voraus ist.

Reflection 70B Benchmark-Ergebnisse, zur Verfügung gestellt von Matt Shumer. Quelle: Gesicht umarmen

Der Name des Modells ist eine Anspielung auf seine Fähigkeit zur Selbstkorrektur während der Schlussfolgerung. Shumer verrät nicht zu viel, erklärt aber, dass das Modell über seine ursprüngliche Antwort auf eine Aufforderung nachdenkt und sie erst dann ausgibt, wenn es überzeugt ist, dass sie richtig ist.

Shumer sagt, dass eine 405B-Version des Reflection in Arbeit ist und andere Modelle, einschließlich des GPT-4o, in den Schatten stellen wird, wenn sie nächste Woche vorgestellt wird.

Ist Reflection 70B ein Betrug?

Ist das alles zu schön, um wahr zu sein? Reflection 70B kann bei Huging Face heruntergeladen werden, aber die ersten Tester waren nicht in der Lage, die beeindruckende Leistung, die Shumers Benchmarks zeigten, zu wiederholen.

Die Reflexionsspielplatz lässt Sie das Modell ausprobieren, sagt aber, dass die Demo wegen der hohen Nachfrage vorübergehend nicht verfügbar ist. Die Vorschläge "Zähle 'r's in Erdbeere" und "9,11 vs. 9,9" deuten darauf hin, dass das Modell diese kniffligen Fragen richtig beantwortet. Einige Benutzer behaupten jedoch, dass Reflection speziell für die Beantwortung dieser Aufforderungen optimiert wurde.

Der Reflexionsspielplatz ist vorerst abgeschaltet. Quelle: Reflexion Spielplatz

Einige Nutzer stellten die beeindruckenden Benchmarks in Frage. Der GSM8K von über 99% sah besonders verdächtig aus.

Einige der richtigen Antworten im GSM8K-Datensatz sind tatsächlich falsch. Mit anderen Worten: Die einzige Möglichkeit, bei GSM8K mehr als 99% zu erreichen, bestand darin, die gleichen falschen Antworten auf diese Aufgaben zu geben.

Nach einigen Tests sagen Benutzer, dass Reflection tatsächlich schlechter ist als Llama 3.1 und dass es eigentlich nur Llama 3 mit LoRA-Tuning war.

Nutzertests zeigen, dass der Reflection 70B schlechter abschneidet als die Modelle, die er laut Shumer übertrifft. Quelle: X

Als Reaktion auf das negative Feedback postete Shumer eine Erklärung auf X: "Schnelles Update - wir haben die Gewichte neu hochgeladen, aber es gibt immer noch ein Problem. Wir haben gerade wieder mit dem Training begonnen, um alle möglichen Probleme zu beseitigen. Sollte bald fertig sein."

Shumer erklärte, dass es einen Fehler in der API gebe und dass man daran arbeite. In der Zwischenzeit gewährte er Zugang zu einer geheimen, privaten API, damit Zweifler Reflection ausprobieren konnten, während sie an der Behebung arbeiteten.

Und genau hier scheinen sich die Räder zu lösen, denn eine vorsichtige Nachfrage scheint zu zeigen, dass die API in Wirklichkeit nur eine Claude 3.5 Sonnet-Verpackung ist.

Nachfolgende Tests ergaben, dass die API Ausgaben von Llama und GPT-4o lieferte. Shumer besteht darauf, dass die ursprünglichen Ergebnisse korrekt sind und dass man daran arbeitet, das herunterladbare Modell zu verbessern.

Sind die Skeptiker ein wenig voreilig, wenn sie Shumer einen Betrüger nennen? Vielleicht wurde die Veröffentlichung nur schlecht gehandhabt und Reflection 70B ist wirklich ein bahnbrechendes Open-Source-Modell. Oder vielleicht ist es ein weiteres Beispiel für einen KI-Hype, um Risikokapital von Investoren zu erhalten, die auf der Suche nach dem nächsten großen Ding der KI sind.

Wir müssen noch ein oder zwei Tage abwarten, um zu sehen, wie sich das entwickelt.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen