¿Es Reflection 70B el LLM de código abierto más potente o una estafa?

9 de septiembre de 2024

  • Matt Shumer afirma que su Reflection 70B LLM es el modelo de código abierto más potente
  • "Reflection-Tuning" impide que Reflection 70B alucine y ofrece resultados de referencia excepcionales
  • Algunos de los primeros usuarios dicen que el modelo es una estafa y no es más que un envoltorio de modelos ya existentes

El fundador y consejero delegado de HyperWrite, Matt Shumer, ha anunciado que su nuevo modelo, Reflection 70B, utiliza un sencillo truco para resolver las alucinaciones de LLM y ofrece unos impresionantes resultados de benchmark que superan a modelos más grandes e incluso cerrados como GPT-4o.

Shumer colaboró con Glaive, proveedor de datos sintéticos, para crear el nuevo modelo, basado en el modelo Llama 3.1-70B Instruct de Meta.

En el anuncio de lanzamiento en Hugging Face, Shumer dijo. "Reflection Llama-3.1 70B es (actualmente) el mejor LLM de código abierto del mundo, entrenado con una nueva técnica llamada Reflection-Tuning que enseña a un LLM a detectar errores en su razonamiento y corregir el rumbo".

Si Shumer encontrara una forma de resolver el problema de las alucinaciones de la IA, sería increíble. Los puntos de referencia que compartió parecen indicar que el Reflection 70B está muy por delante de otros modelos.

Resultados de referencia de Reflection 70B proporcionados por Matt Shumer. Fuente: Cara de abrazo

El nombre del modelo hace referencia a su capacidad de autocorrección durante la inferencia. Shumer no da demasiados detalles, pero explica que el modelo reflexiona sobre su respuesta inicial a una pregunta y sólo la emite cuando está convencido de que es correcta.

Shumer afirma que se está trabajando en una versión 405B de Reflection que dejará boquiabiertos a otros modelos, incluido el GPT-4o, cuando se presente la semana que viene.

¿Es Reflection 70B una estafa?

¿Es demasiado bueno para ser verdad? Reflection 70B puede descargarse en Huging Face, pero los primeros usuarios no fueron capaces de duplicar el impresionante rendimiento que mostraban los puntos de referencia de Shumer.

En Parque infantil de reflexión te permite probar el modelo, pero dice que, debido a la gran demanda, la demo está temporalmente inactiva. Las sugerencias "Contar 'r' en fresa" y "9,11 frente a 9,9" indican que el modelo responde correctamente a estas preguntas difíciles. Pero algunos usuarios afirman que Reflection se ha ajustado específicamente para responder a estas preguntas.

La zona de juegos Reflection está desactivada por ahora. Fuente: Parque infantil Reflection

Algunos usuarios cuestionaron los impresionantes valores de referencia. El GSM8K de más de 99% parecía especialmente sospechoso.

Algunas de las respuestas verdaderas del conjunto de datos GSM8K son en realidad incorrectas. En otras palabras, la única forma de superar la puntuación de 99% en el GSM8K era proporcionar las mismas respuestas incorrectas a esos problemas.

Después de algunas pruebas, los usuarios dicen que Reflection es en realidad peor que Llama 3.1 y que en realidad era sólo Llama 3 con el ajuste LoRA aplicado.

Las pruebas realizadas por los usuarios muestran que el Reflection 70B rinde peor que los modelos que Shumer afirma que supera. Fuente: X

En respuesta a los comentarios negativos, Shumer publicó una explicación en X diciendo: "Actualización rápida - hemos vuelto a cargar los pesos, pero todavía hay un problema. Acabamos de empezar a entrenar de nuevo para eliminar cualquier posible problema. Debería estar listo pronto".

Shumer explicó que había un fallo con la API y que estaban trabajando en ello. Mientras tanto, proporcionó acceso a una API secreta y privada para que los dudosos pudieran probar Reflection mientras trabajaban en la solución.

Y aquí es donde las ruedas parecen salirse, ya que algunas preguntas cuidadosas parecen mostrar que la API es en realidad sólo una envoltura de Claude 3.5 Sonnet.

Según los informes, las pruebas posteriores hicieron que la API devolviera resultados de Llama y GPT-4o. Shumer insiste en que los resultados originales son exactos y que están trabajando para corregir el modelo descargable.

¿Se han precipitado los escépticos al llamar estafador a Shumer? Puede que el lanzamiento se haya gestionado mal y que Reflection 70B sea realmente un modelo innovador de código abierto. O tal vez sea otro ejemplo del bombo publicitario de la IA para captar capital de riesgo de inversores que buscan la próxima gran novedad en IA.

Tendremos que esperar uno o dos días para ver cómo evoluciona esto.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales