Meta lanza los modelos Llama 3.1 y mantiene su estrategia abierta

24 de julio de 2024

  • Meta lanzó sus modelos Llama 3.1, incluida una versión con parámetros 405B, el modelo abierto más grande del mundo
  • Meta afirma que sus modelos mejorados superan a GPT-4o y Claude 3.5 Sonnet en múltiples pruebas comparativas
  • Los modelos estarán disponibles como código abierto y a través de socios como NVIDIA, AWS y Azure, entre otros.

Meta ha lanzado sus modelos actualizados Llama 3.1 en versiones 8B, 70B y 405B y se ha comprometido con la visión de código abierto de Mark Zuckerberg para el futuro de la IA.

Las nuevas incorporaciones a la familia de modelos Llama de Meta vienen con una longitud de contexto ampliada a 128k y compatibilidad con ocho idiomas.

Meta afirma que su esperado modelo 405B demuestra "una flexibilidad, un control y unas capacidades de última generación inigualables que rivalizan con los mejores modelos de código cerrado". También afirma que Llama 3.1 405B es "el modelo de fundación de código abierto más grande y capaz del mundo".

Con unos costes informáticos desorbitados para entrenar modelos cada vez más grandes, se especuló mucho con la posibilidad de que el modelo 405B, buque insignia de Meta, fuera su primer modelo de pago.

Llama 3.1 405B se entrenó con más de 15 billones de tokens utilizando 16.000 NVIDIA H100, lo que probablemente costó cientos de millones de dólares.

En un entrada del blog, el Consejero Delegado de Meta, Mark Zuckerberg, reafirmó la opinión de la empresa de que la IA de código abierto es el camino a seguir y que el lanzamiento de Llama 3.1 es el siguiente paso "para que la IA de código abierto se convierta en el estándar de la industria".

Los modelos Llama 3.1 pueden descargarse gratuitamente y modificarse o ajustarse con un conjunto de servicios de Amazon, Databricks y NVIDIA.

Los modelos también están disponibles en proveedores de servicios en la nube como AWS, Azure, Google y Oracle.

Rendimiento

Meta afirma que ha probado sus modelos en más de 150 conjuntos de datos de referencia y ha publicado los resultados de las pruebas más habituales para mostrar cómo se comparan sus nuevos modelos con los de otros líderes.

No hay mucha diferencia entre Llama 3.1 405B y GPT-4o y Claude 3.5 Sonnet. Aquí están las cifras para el modelo 405B y luego las versiones más pequeñas 8B y 70B.

Comparación de Llama 3.1 405B con otros modelos líderes. Fuente: Meta
Comparación de Llama 3.1 405B con otros modelos líderes. Fuente: Meta

Meta también ha realizado "exhaustivas evaluaciones humanas que comparan Llama 3.1 con modelos de la competencia en escenarios reales".

Estas cifras dependen de que los usuarios decidan si prefieren la respuesta de un modelo u otro.

La evaluación humana de Llama 3.1 405B refleja una paridad similar a la que revelan las cifras de referencia.

Resultados de la evaluación humana de Llama 3.1 405B comparados con GPT-4, GPT-4o y Claude 3.5 Sonnet. Fuente: Meta

Meta afirma que su modelo es realmente abierto, ya que también se pueden descargar los pesos del modelo Llama 3.1, aunque no se han compartido los datos de entrenamiento. La empresa también ha modificado su licencia para permitir que los modelos de Llama se utilicen para mejorar otros modelos de IA.

La libertad de afinar, modificar y utilizar los modelos Llama sin restricciones tendrá críticas al código abierto La IA hace saltar las alarmas.

Zuckerberg sostiene que un enfoque de código abierto es la mejor manera de evitar daños no deseados. Si un modelo de IA está abierto al escrutinio, es menos probable que desarrolle comportamientos emergentes peligrosos que, de otro modo, pasaríamos por alto en modelos cerrados.

En cuanto al potencial de daño intencionado, Zuckerberg afirma: "Mientras todo el mundo tenga acceso a generaciones similares de modelos -lo que promueve el código abierto-, los gobiernos y las instituciones con más recursos informáticos podrán poner en jaque a los malos actores con menos recursos informáticos."

En cuanto al riesgo de que adversarios estatales como China accedan a los modelos de Meta, Zuckerberg afirma que los esfuerzos por mantenerlos fuera del alcance de los chinos no van a funcionar.

"A nuestros adversarios se les da muy bien el espionaje, robar modelos que caben en una memoria USB es relativamente fácil, y la mayoría de las empresas tecnológicas están lejos de operar de una forma que lo dificulte", explicó.

El entusiasmo por un modelo de IA de código abierto como Llama 3.1 405B que se enfrente a los grandes modelos cerrados está justificado.

Pero con los susurros de GPT-5 y Claude 3.5 Opus esperando entre bastidores, estos resultados de referencia podrían no envejecer muy bien.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales