Er Reflection 70B den kraftigste LLM-en med åpen kildekode eller en svindel?

9. september 2024

  • Matt Shumer hevder at hans Reflection 70B LLM er den kraftigste open source-modellen
  • "Reflection-Tuning" hindrer Reflection 70B i å hallusinere og gir eksepsjonelle referanseresultater
  • Noen av de første brukerne sier at modellen er en svindel og bare er en innpakning av eksisterende modeller

HyperWrite-grunnlegger og administrerende direktør Matt Shumer kunngjorde at hans nye modell, Reflection 70B, bruker et enkelt triks for å løse LLM-hallusinasjoner og leverer imponerende referanseresultater som slår større og til og med lukkede modeller som GPT-4o.

Shumer samarbeidet med leverandøren av syntetiske data, Glaive, for å lage den nye modellen, som er basert på Metas Llama 3.1-70B Instruct-modell.

I lanseringsannonsen på Hugging Face sa Shumer. "Reflection Llama-3.1 70B er (for øyeblikket) verdens beste LLM med åpen kildekode, trent med en ny teknikk kalt Reflection-Tuning som lærer en LLM å oppdage feil i resonnementet sitt og korrigere kursen."

Hvis Shumer fant en måte å løse problemet med AI-hallusinasjoner på, ville det være utrolig. Referanseverdiene han delte ser ut til å indikere at Reflection 70B ligger langt foran andre modeller.

Reflection 70B-referanseresultater levert av Matt Shumer. Kilde: Klemmende ansikt

Modellens navn henspiller på dens evne til å korrigere seg selv under slutningsprosessen. Shumer røper ikke for mye, men forklarer at modellen reflekterer over det opprinnelige svaret på en ledetekst, og at den bare sender ut svaret når den er overbevist om at det er riktig.

Shumer forteller at en 405B-versjon av Reflection er på trappene, og at den vil blåse andre modeller, inkludert GPT-4o, av banen når den presenteres neste uke.

Er Reflection 70B en svindel?

Er alt dette for godt til å være sant? Reflection 70B er tilgjengelig for nedlasting på Huging Face, men de første testerne klarte ikke å duplisere den imponerende ytelsen som Shumers benchmarks viste.

Den Lekeplass for refleksjon lar deg prøve modellen, men sier at demoen er midlertidig nede på grunn av stor etterspørsel. Forslagene "Tell r-er i jordbær" og "9,11 vs. 9,9" antyder at modellen svarer riktig på disse vanskelige spørsmålene. Men noen brukere hevder at Reflection er innstilt spesielt for å svare på disse spørsmålene.

Reflection lekeplass er nede for øyeblikket. Kilde: Refleksjon Lekeplass

Noen brukere satte spørsmålstegn ved de imponerende referansene. GSM8K på over 99% så spesielt mistenkelig ut.

Noen av de riktige svarene i GSM8K-datasettet er faktisk feil. Med andre ord var den eneste måten å oppnå høyere poengsum enn 99% på GSM8K å gi de samme feilaktige svarene på disse oppgavene.

Etter å ha testet Reflection, sier brukerne at den faktisk er dårligere enn Llama 3.1, og at den egentlig bare var Llama 3 med LoRA-tuning.

Brukertester viser at Reflection 70B presterer dårligere enn modellene Shumer hevder den slår. Kilde: X

Som svar på den negative tilbakemeldingen la Shumer ut en forklaring på X og sa: "Rask oppdatering - vi lastet opp vektene på nytt, men det er fortsatt et problem. Vi har nettopp begynt å trene på nytt for å eliminere eventuelle problemer. Burde være ferdig snart."

Shumer forklarte at det var en feil med API-et, og at de jobbet med saken. I mellomtiden ga han tilgang til et hemmelig, privat API, slik at tvilere kunne prøve Reflection mens de jobbet med å fikse feilen.

Og det er her hjulene ser ut til å løsne, ettersom en forsiktig spørring ser ut til å vise at API-et egentlig bare er en Claude 3.5 Sonnet-innpakning.

Etterfølgende tester skal ha vist at API-et returnerte resultater fra Llama og GPT-4o. Shumer insisterer på at de opprinnelige resultatene er nøyaktige, og at de jobber med å fikse den nedlastbare modellen.

Er skeptikerne litt for tidlig ute med å kalle Shumer en svindler? Kanskje lanseringen bare var dårlig håndtert, og Reflection 70B virkelig er en banebrytende åpen kildekode-modell. Eller kanskje det er nok et eksempel på AI-hype for å skaffe risikokapital fra investorer som leter etter den neste store tingen innen AI.

Vi må vente en dag eller to for å se hvordan dette utvikler seg.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser