O Reflection 70B é o LLM de código aberto mais poderoso ou é uma fraude?

O fundador e CEO da HyperWrite, Matt Shumer, anunciou que seu novo modelo, o Reflection 70B, usa um truque simples para resolver alucinações LLM e fornece resultados de benchmark impressionantes que superam modelos maiores e até mesmo fechados como o GPT-4o.

Shumer colaborou com o fornecedor de dados sintéticos, Glaive, para criar o novo modelo, que se baseia no modelo Llama 3.1-70B Instruct da Meta.

No anúncio de lançamento no Hugging Face, Shumer disse. "O Reflection Llama-3.1 70B é (atualmente) o melhor LLM de código aberto do mundo, treinado com uma nova técnica chamada Reflection-Tuning que ensina um LLM a detetar erros no seu raciocínio e a corrigir o curso."

Se Shumer encontrasse uma maneira de resolver o problema das alucinações da IA, isso seria incrível. As referências que partilhou parecem indicar que o Reflection 70B está muito à frente de outros modelos.

Resultados de benchmark do Reflection 70B fornecidos por Matt Shumer. Fonte: Cara de abraço

O nome do modelo é uma referência à sua capacidade de auto-correção durante a inferência. Shumer não revela muito, mas explica que o modelo reflecte sobre a sua resposta inicial a um pedido e só a emite quando estiver convencido de que está correta.

Shumer diz que uma versão 405B do Reflection está a ser trabalhada e que vai arrasar com outros modelos, incluindo o GPT-4o, quando for apresentada na próxima semana.

O Reflection 70B é uma fraude?

Será que tudo isso é bom demais para ser verdade? O Reflection 70B está disponível para download no Huging Face, mas os primeiros testadores não foram capazes de duplicar o desempenho impressionante que os benchmarks de Shumer mostraram.

O Parque infantil de reflexão permite-lhe experimentar o modelo, mas diz que, devido à elevada procura, a demonstração está temporariamente inativa. As sugestões de prompt "Contar 'r' em morango" e "9,11 vs 9,9" sugerem que o modelo acerta esses prompts complicados. Mas alguns utilizadores afirmam que o Reflection foi especificamente concebido para responder a estas questões.

O recreio Reflection está inativo por enquanto. Fonte: Parque infantil de reflexão

Alguns utilizadores questionaram os impressionantes valores de referência. O GSM8K de mais de 99% parecia especialmente suspeito.

Olá, Matt! Isso é muito interessante, mas estou bastante surpreso ao ver uma pontuação GSM8k de mais de 99%. No meu entender, é provável que mais de 1% do GSM8k estejam mal rotulados (a resposta correta está realmente errada)!

- Hugh Zhang (@hughbzhang) 5 de setembro de 2024

Algumas das respostas verdadeiras no conjunto de dados GSM8K estão de facto erradas. Por outras palavras, a única forma de obter uma pontuação superior a 99% no GSM8K era fornecer as mesmas respostas incorrectas a esses problemas.

Depois de alguns testes, os utilizadores dizem que o Reflection é pior do que o Llama 3.1 e que, na verdade, era apenas o Llama 3 com o ajuste LoRA aplicado.

Os testes com utilizadores revelam que o Reflection 70B tem um desempenho inferior ao dos modelos que Shumer afirma serem superados. Fonte: X

Em resposta ao feedback negativo, Shumer publicou uma explicação no X dizendo: "Atualização rápida - voltámos a carregar os pesos, mas continua a haver um problema. Começámos a treinar de novo para eliminar qualquer problema possível. Deve estar pronto em breve".

Shumer explicou que havia uma falha na API e que eles estavam trabalhando nisso. Enquanto isso, ele forneceu acesso a uma API secreta e privada para que os céticos pudessem experimentar o Reflection enquanto eles trabalhavam na correção.

E é aí que as rodas parecem sair, já que algumas perguntas cuidadosas parecem mostrar que a API é realmente apenas um invólucro do Claude 3.5 Sonnet.

"Reflection API" é um wrapper sonnet 3.5 com prompt. E estão atualmente a disfarçá-lo filtrando a cadeia 'claude'.https://t.co/c4Oj8Y3Ol1 https://t.co/k0ECeo9a4i pic.twitter.com/jTm2Q85Q7b

- José (@RealJosephus) 8 de setembro de 2024

Testes subseqüentes alegaram que a API retornou resultados de Llama e GPT-4o. Shumer insiste que os resultados originais são exactos e que estão a trabalhar para corrigir o modelo descarregável.

Será que os céticos são um pouco prematuros em chamar Shumer de vigarista? Talvez o lançamento tenha sido apenas mal conduzido e o Reflection 70B seja realmente um modelo inovador de código aberto. Ou talvez seja mais um exemplo de propaganda de IA para angariar capital de risco de investidores que procuram a próxima grande novidade em IA.

Teremos de esperar um dia ou dois para ver como isto se desenrola.

O Reflection 70B é o LLM de fonte aberta mais poderoso ou é uma fraude?

O Reflection 70B é uma fraude?

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

O Reflection 70B é o LLM de fonte aberta mais poderoso ou é uma fraude?

O Reflection 70B é uma fraude?

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI