Reflection 70B est-il le LLM open-source le plus puissant ou une arnaque ?

9 septembre 2024

  • Matt Shumer affirme que sa Reflection 70B LLM est le modèle open-source le plus puissant
  • Le "Reflection-Tuning" met fin aux hallucinations de Reflection 70B et permet d'obtenir des résultats de référence exceptionnels.
  • Certains utilisateurs précoces affirment que le modèle est une escroquerie et qu'il s'agit simplement d'une enveloppe pour des modèles existants.

Matt Shumer, fondateur et PDG d'HyperWrite, a annoncé que son nouveau modèle, Reflection 70B, utilise une astuce simple pour résoudre les hallucinations LLM et fournit des résultats de référence impressionnants qui battent des modèles plus grands et même fermés comme GPT-4o.

Shumer a collaboré avec le fournisseur de données synthétiques Glaive pour créer le nouveau modèle qui est basé sur le modèle Llama 3.1-70B Instruct de Meta.

Dans l'annonce du lancement sur Hugging Face, Shumer a déclaré. "Reflection Llama-3.1 70B est (actuellement) le meilleur LLM open-source au monde, formé avec une nouvelle technique appelée Reflection-Tuning qui apprend à un LLM à détecter les erreurs dans son raisonnement et à corriger sa trajectoire.

Si Shumer trouvait un moyen de résoudre le problème des hallucinations de l'IA, ce serait incroyable. Les données de référence qu'il a partagées semblent indiquer que Reflection 70B est très en avance sur les autres modèles.

Les résultats de référence de Reflection 70B sont fournis par Matt Shumer. Source : Visage étreint

Le nom du modèle fait référence à sa capacité à s'autocorriger pendant l'inférence. Shumer n'en dit pas trop mais explique que le modèle réfléchit à sa réponse initiale à une invite et ne la donne que lorsqu'il est convaincu qu'elle est correcte.

M. Shumer affirme qu'une version 405B de Reflection est en cours d'élaboration et qu'elle fera pâlir d'envie les autres modèles, y compris le GPT-4o, lorsqu'elle sera dévoilée la semaine prochaine.

Reflection 70B est-il une escroquerie ?

Est-ce trop beau pour être vrai ? Reflection 70B est disponible en téléchargement sur Huging Face, mais les premiers testeurs n'ont pas été en mesure de reproduire les performances impressionnantes affichées par Shumer dans ses benchmarks.

Les Terrain de jeux de réflexion vous permet d'essayer le modèle, mais indique qu'en raison de la forte demande, la démo est temporairement interrompue. Les suggestions "Comptez les 'r' dans fraise" et "9.11 vs 9.9" indiquent que le modèle répond correctement à ces questions délicates. Mais certains utilisateurs affirment que Reflection a été spécialement conçu pour répondre à ces questions.

L'aire de jeux Reflection est désactivée pour l'instant. Source : Aire de jeux de réflexion

Certains utilisateurs ont mis en doute les résultats impressionnants obtenus. Le GSM8K de plus de 99% semblait particulièrement suspect.

Certaines des réponses de la vérité de base dans l'ensemble de données du GSM8K sont en fait erronées. En d'autres termes, le seul moyen d'obtenir un score supérieur à 99% sur le GSM8K était de fournir les mêmes réponses incorrectes à ces problèmes.

Après quelques tests, les utilisateurs affirment que Reflection est en fait pire que Llama 3.1 et qu'il s'agit en fait de Llama 3 avec un réglage LoRA.

Les tests effectués par les utilisateurs montrent que Reflection 70B est moins performant que les modèles que Shumer prétend battre. Source : X

En réponse aux commentaires négatifs, Shumer a posté une explication sur X en disant : "Mise à jour rapide - nous avons rechargé les poids mais il y a toujours un problème. Nous venons de recommencer l'entraînement pour éliminer tout problème éventuel. Cela devrait être bientôt terminé."

Shumer a expliqué qu'il y avait un problème avec l'API et qu'ils y travaillaient. En attendant, il a donné accès à une API secrète et privée afin que les sceptiques puissent essayer Reflection pendant qu'ils travaillent sur la correction.

Et c'est là que les choses semblent se gâter, car une interrogation attentive semble montrer que l'API n'est en fait qu'une enveloppe de Claude 3.5 Sonnet.

Lors de tests ultérieurs, l'API aurait renvoyé des résultats de Llama et de GPT-4o. Shumer insiste sur le fait que les résultats originaux sont exacts et qu'ils travaillent à la correction du modèle téléchargeable.

Les sceptiques ne traitent-ils pas un peu prématurément Shumer d'escroc ? Peut-être que la publication a été mal gérée et que Reflection 70B est vraiment un modèle open-source révolutionnaire. Ou peut-être s'agit-il d'un autre exemple de battage médiatique sur l'IA visant à lever du capital-risque auprès d'investisseurs à la recherche de la prochaine grande nouveauté dans le domaine de l'IA.

Il faudra attendre un jour ou deux pour voir ce qu'il en est.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation