Is Reflection 70B de krachtigste open-source LLM of oplichterij?

9 september 2024

  • Matt Shumer beweert dat zijn Reflection 70B LLM het krachtigste open-source model is.
  • "Reflection-Tuning" stopt Reflection 70B met hallucineren en levert uitzonderlijke benchmarkresultaten
  • Sommige vroege gebruikers zeggen dat het model oplichterij is en gewoon een omhulsel voor bestaande modellen.

HyperWrite-oprichter en CEO Matt Shumer kondigde aan dat zijn nieuwe model, Reflection 70B, een eenvoudige truc gebruikt om LLM-hallucinaties op te lossen en indrukwekkende benchmarkresultaten levert die grotere en zelfs gesloten modellen zoals GPT-4o verslaan.

Shumer werkte samen met de leverancier van synthetische gegevens, Glaive, om het nieuwe model te creëren dat is gebaseerd op Meta's Llama 3.1-70B Instruct-model.

In de aankondiging van de lancering op Hugging Face zei Shumer. "Reflection Llama-3.1 70B is (momenteel) 's werelds beste open-source LLM, getraind met een nieuwe techniek genaamd Reflection-Tuning die een LLM leert om fouten in zijn redenering op te sporen en koers te corrigeren."

Als Shumer een manier heeft gevonden om het probleem van AI-hallucinaties op te lossen, zou dat ongelooflijk zijn. De benchmarks die hij deelde lijken aan te geven dat Reflection 70B ver voor ligt op andere modellen.

Reflection 70B benchmarkresultaten verstrekt door Matt Shumer. Bron: Knuffelend Gezicht

De naam van het model verwijst naar het vermogen om zichzelf te corrigeren tijdens de inferentie. Shumer verklapt niet te veel, maar legt uit dat het model nadenkt over zijn initiële antwoord op een prompt en dit pas uitvoert als het ervan overtuigd is dat het correct is.

Shumer zegt dat een 405B-versie van Reflection in de maak is en andere modellen, waaronder GPT-4o, zal wegblazen wanneer deze volgende week wordt onthuld.

Is Reflection 70B oplichterij?

Is dit allemaal te mooi om waar te zijn? Reflection 70B is beschikbaar voor download op Huging Face, maar vroege testers waren niet in staat om de indrukwekkende prestaties die Shumer's benchmarks lieten zien te evenaren.

De Reflectiespeelplaats laat je het model uitproberen, maar zegt dat de demo tijdelijk niet beschikbaar is vanwege de grote vraag. De promptsuggesties "Tel de 'r' in aardbei" en "9,11 vs 9,9" geven aan dat het model deze lastige prompts goed begrijpt. Maar sommige gebruikers beweren dat Reflection speciaal is afgestemd om deze prompts te beantwoorden.

Reflectiespeeltuin is voorlopig uitgeschakeld. Bron: Reflectie Speeltuin

Sommige gebruikers zetten vraagtekens bij de indrukwekkende benchmarks. Vooral de GSM8K van meer dan 99% zag er verdacht uit.

Sommige van de ground truth antwoorden in de GSM8K dataset zijn eigenlijk fout. Met andere woorden, de enige manier om hoger te scoren dan 99% op de GSM8K was door dezelfde foute antwoorden te geven op die problemen.

Na wat testen zeggen gebruikers dat Reflection eigenlijk slechter is dan Llama 3.1 en dat het eigenlijk gewoon Llama 3 was met LoRA-tuning toegepast.

Uit gebruikerstests blijkt dat de Reflection 70B slechter presteert dan de modellen die Shumer beweert te verslaan. Bron: X

In reactie op de negatieve feedback plaatste Shumer een uitleg op X met de volgende tekst: "Snelle update - we hebben de gewichten opnieuw geüpload, maar er is nog steeds een probleem. We zijn net opnieuw begonnen met trainen om elk mogelijk probleem te elimineren. Zou binnenkort klaar moeten zijn."

Shumer legde uit dat er een probleem was met de API en dat er aan gewerkt werd. Ondertussen gaf hij toegang tot een geheime, privé API zodat twijfelaars Reflection konden uitproberen terwijl ze aan de oplossing werkten.

En dat is waar de wielen los lijken te komen, aangezien voorzichtig vragen lijkt aan te tonen dat de API eigenlijk gewoon een Claude 3.5 Sonnet wrapper is.

Latere tests toonden aan dat de API uitvoer van Llama en GPT-4o terugstuurde. Shumer houdt vol dat de originele resultaten accuraat zijn en dat er gewerkt wordt aan het repareren van het downloadbare model.

Zijn de sceptici een beetje voorbarig door Shumer een oplichter te noemen? Misschien was de release gewoon slecht geregeld en is Reflection 70B echt een baanbrekend open-source model. Of misschien is het weer een voorbeeld van een AI-hype om durfkapitaal op te halen bij investeerders die op zoek zijn naar het volgende grote ding in AI.

We zullen een dag of twee moeten wachten om te zien hoe dit afloopt.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden