Är Reflection 70B den mest kraftfulla LLM med öppen källkod eller en bluff?

9 september 2024

  • Matt Shumer hävdar att hans Reflection 70B LLM är den mest kraftfulla open source-modellen
  • "Reflection-Tuning" stoppar Reflection 70B från att hallucinera och ger exceptionella benchmark-resultat
  • Vissa tidiga användare säger att modellen är en bluff och bara är ett omslag för befintliga modeller

HyperWrites grundare och VD Matt Shumer meddelade att hans nya modell, Reflection 70B, använder ett enkelt trick för att lösa LLM-hallucinationer och levererar imponerande benchmarkresultat som slår större och till och med slutna modeller som GPT-4o.

Shumer samarbetade med Glaive, leverantör av syntetiska data, för att skapa den nya modellen som baseras på Metas Llama 3.1-70B Instruct-modell.

I lanseringsmeddelandet på Hugging Face sa Shumer. "Reflection Llama-3.1 70B är (för närvarande) världens bästa LLM med öppen källkod, tränad med en ny teknik som kallas Reflection-Tuning som lär en LLM att upptäcka misstag i sitt resonemang och korrigera kursen."

Om Shumer hittade ett sätt att lösa frågan om AI-hallucinationer så skulle det vara otroligt. De riktmärken han delade verkar tyda på att Reflection 70B ligger långt före andra modeller.

Reflection 70B:s benchmarkresultat tillhandahålls av Matt Shumer. Källor: Kramande ansikte

Modellens namn syftar på dess förmåga att självkorrigera sig under slutledningsprocessen. Shumer avslöjar inte för mycket, men förklarar att modellen reflekterar över sitt första svar på en fråga och lämnar ut det först när den är övertygad om att det är korrekt.

Shumer säger att en 405B-version av Reflection är på gång och att den kommer att slå andra modeller, inklusive GPT-4o, med häpnad när den presenteras nästa vecka.

Är Reflection 70B en bluff?

Är allt detta för bra för att vara sant? Reflection 70B finns tillgänglig för nedladdning på Huging Face men tidiga testare kunde inte upprepa den imponerande prestanda som Shumers benchmarks visade.

Den Lekplats för reflektion låter dig prova modellen men säger att på grund av hög efterfrågan är demot tillfälligt nere. Frågeförslagen "Räkna 'r' i jordgubbe" och "9.11 vs 9.9" antyder att modellen får dessa knepiga uppmaningar rätt. Men vissa användare hävdar att Reflection har anpassats specifikt för att svara på dessa uppmaningar.

Reflection playground är nere för tillfället. Källan är: Lekplats för reflektion

Vissa användare ifrågasatte de imponerande riktmärkena. GSM8K på över 99% såg särskilt misstänkt ut.

Några av de sanna svaren i GSM8K-datasetet är faktiskt felaktiga. Med andra ord var det enda sättet att få över 99% poäng på GSM8K att ge samma felaktiga svar på dessa problem.

Efter några tester säger användare att Reflection faktiskt är sämre än Llama 3.1 och att det faktiskt bara var Llama 3 med LoRA-tuning tillämpad.

Användartester visar att Reflection 70B presterar sämre än de modeller som Shumer hävdar att den slår. Källa: Shumer: X

Som svar på den negativa feedbacken publicerade Shumer en förklaring på X och sa: "Snabb uppdatering - vi laddade upp vikterna igen men det finns fortfarande ett problem. Vi började precis träna igen för att eliminera eventuella problem. Borde vara klart snart."

Shumer förklarade att det fanns ett problem med API:et och att de arbetade på det. Under tiden gav han tillgång till ett hemligt, privat API så att tvivlare kunde prova Reflection medan de arbetade med fixen.

Och det är där hjulen verkar lossna, eftersom en noggrann uppmaning verkar visa att API: et egentligen bara är en Claude 3.5 Sonnet-omslag.

Efterföljande testning hade API enligt uppgift returnerat utgångar från Llama och GPT-4o. Shumer insisterar på att de ursprungliga resultaten är korrekta och att de arbetar med att fixa den nedladdningsbara modellen.

Är skeptikerna lite för tidiga med att kalla Shumer för en bedragare? Kanske var lanseringen bara dåligt hanterad och Reflection 70B verkligen är en banbrytande open source-modell. Eller så är det ännu ett exempel på AI-hype för att skaffa riskkapital från investerare som letar efter nästa stora grej inom AI.

Vi får vänta en dag eller två för att se hur det här utvecklas.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar