O Reflection 70B é o LLM de fonte aberta mais poderoso ou é uma fraude?

9 de setembro de 2024

  • Matt Shumer afirma que o seu Reflection 70B LLM é o modelo de código aberto mais poderoso
  • O "Reflection-Tuning" impede que o Reflection 70B tenha alucinações e proporciona resultados de referência excepcionais
  • Alguns dos primeiros utilizadores afirmam que o modelo é uma fraude e que é simplesmente um invólucro para modelos existentes

O fundador e CEO da HyperWrite, Matt Shumer, anunciou que seu novo modelo, o Reflection 70B, usa um truque simples para resolver alucinações LLM e fornece resultados de benchmark impressionantes que superam modelos maiores e até mesmo fechados como o GPT-4o.

Shumer colaborou com o fornecedor de dados sintéticos, Glaive, para criar o novo modelo, que se baseia no modelo Llama 3.1-70B Instruct da Meta.

No anúncio de lançamento no Hugging Face, Shumer disse. "O Reflection Llama-3.1 70B é (atualmente) o melhor LLM de código aberto do mundo, treinado com uma nova técnica chamada Reflection-Tuning que ensina um LLM a detetar erros no seu raciocínio e a corrigir o curso."

Se Shumer encontrasse uma maneira de resolver o problema das alucinações da IA, isso seria incrível. As referências que partilhou parecem indicar que o Reflection 70B está muito à frente de outros modelos.

Resultados de benchmark do Reflection 70B fornecidos por Matt Shumer. Fonte: Cara de abraço

O nome do modelo é uma referência à sua capacidade de auto-correção durante a inferência. Shumer não revela muito, mas explica que o modelo reflecte sobre a sua resposta inicial a um pedido e só a emite quando estiver convencido de que está correta.

Shumer diz que uma versão 405B do Reflection está a ser trabalhada e que vai arrasar com outros modelos, incluindo o GPT-4o, quando for apresentada na próxima semana.

O Reflection 70B é uma fraude?

Será que tudo isso é bom demais para ser verdade? O Reflection 70B está disponível para download no Huging Face, mas os primeiros testadores não foram capazes de duplicar o desempenho impressionante que os benchmarks de Shumer mostraram.

O Parque infantil de reflexão permite-lhe experimentar o modelo, mas diz que, devido à elevada procura, a demonstração está temporariamente inativa. As sugestões de prompt "Contar 'r' em morango" e "9,11 vs 9,9" sugerem que o modelo acerta esses prompts complicados. Mas alguns utilizadores afirmam que o Reflection foi especificamente concebido para responder a estas questões.

O recreio Reflection está inativo por enquanto. Fonte: Parque infantil de reflexão

Alguns utilizadores questionaram os impressionantes valores de referência. O GSM8K de mais de 99% parecia especialmente suspeito.

Algumas das respostas verdadeiras no conjunto de dados GSM8K estão de facto erradas. Por outras palavras, a única forma de obter uma pontuação superior a 99% no GSM8K era fornecer as mesmas respostas incorrectas a esses problemas.

Depois de alguns testes, os utilizadores dizem que o Reflection é pior do que o Llama 3.1 e que, na verdade, era apenas o Llama 3 com o ajuste LoRA aplicado.

Os testes com utilizadores revelam que o Reflection 70B tem um desempenho inferior ao dos modelos que Shumer afirma serem superados. Fonte: X

Em resposta ao feedback negativo, Shumer publicou uma explicação no X dizendo: "Atualização rápida - voltámos a carregar os pesos, mas continua a haver um problema. Começámos a treinar de novo para eliminar qualquer problema possível. Deve estar pronto em breve".

Shumer explicou que havia uma falha na API e que eles estavam trabalhando nisso. Enquanto isso, ele forneceu acesso a uma API secreta e privada para que os céticos pudessem experimentar o Reflection enquanto eles trabalhavam na correção.

E é aí que as rodas parecem sair, já que algumas perguntas cuidadosas parecem mostrar que a API é realmente apenas um invólucro do Claude 3.5 Sonnet.

Testes subseqüentes alegaram que a API retornou resultados de Llama e GPT-4o. Shumer insiste que os resultados originais são exactos e que estão a trabalhar para corrigir o modelo descarregável.

Será que os céticos são um pouco prematuros em chamar Shumer de vigarista? Talvez o lançamento tenha sido apenas mal conduzido e o Reflection 70B seja realmente um modelo inovador de código aberto. Ou talvez seja mais um exemplo de propaganda de IA para angariar capital de risco de investidores que procuram a próxima grande novidade em IA.

Teremos de esperar um dia ou dois para ver como isto se desenrola.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições