Meta ha lanzado sus modelos actualizados Llama 3.1 en versiones 8B, 70B y 405B y se ha comprometido con la visión de código abierto de Mark Zuckerberg para el futuro de la IA.
Las nuevas incorporaciones a la familia de modelos Llama de Meta vienen con una longitud de contexto ampliada a 128k y compatibilidad con ocho idiomas.
Meta afirma que su esperado modelo 405B demuestra "una flexibilidad, un control y unas capacidades de última generación inigualables que rivalizan con los mejores modelos de código cerrado". También afirma que Llama 3.1 405B es "el modelo de fundación de código abierto más grande y capaz del mundo".
Con unos costes informáticos desorbitados para entrenar modelos cada vez más grandes, se especuló mucho con la posibilidad de que el modelo 405B, buque insignia de Meta, fuera su primer modelo de pago.
Llama 3.1 405B se entrenó con más de 15 billones de tokens utilizando 16.000 NVIDIA H100, lo que probablemente costó cientos de millones de dólares.
En un entrada del blog, el Consejero Delegado de Meta, Mark Zuckerberg, reafirmó la opinión de la empresa de que la IA de código abierto es el camino a seguir y que el lanzamiento de Llama 3.1 es el siguiente paso "para que la IA de código abierto se convierta en el estándar de la industria".
Los modelos Llama 3.1 pueden descargarse gratuitamente y modificarse o ajustarse con un conjunto de servicios de Amazon, Databricks y NVIDIA.
Los modelos también están disponibles en proveedores de servicios en la nube como AWS, Azure, Google y Oracle.
A partir de hoy, el código abierto marca el camino. Presentamos Llama 3.1: Nuestros modelos más capaces hasta la fecha.
Hoy lanzamos una colección de nuevos modelos Llama 3.1, incluido nuestro esperado 405B. Estos modelos ofrecen capacidades de razonamiento mejoradas, un contexto... pic.twitter.com/1iKpBJuReD
- AI en Meta (@AIatMeta) 23 de julio de 2024
Rendimiento
Meta afirma que ha probado sus modelos en más de 150 conjuntos de datos de referencia y ha publicado los resultados de las pruebas más habituales para mostrar cómo se comparan sus nuevos modelos con los de otros líderes.
No hay mucha diferencia entre Llama 3.1 405B y GPT-4o y Claude 3.5 Sonnet. Aquí están las cifras para el modelo 405B y luego las versiones más pequeñas 8B y 70B.
Meta también ha realizado "exhaustivas evaluaciones humanas que comparan Llama 3.1 con modelos de la competencia en escenarios reales".
Estas cifras dependen de que los usuarios decidan si prefieren la respuesta de un modelo u otro.
La evaluación humana de Llama 3.1 405B refleja una paridad similar a la que revelan las cifras de referencia.
Meta afirma que su modelo es realmente abierto, ya que también se pueden descargar los pesos del modelo Llama 3.1, aunque no se han compartido los datos de entrenamiento. La empresa también ha modificado su licencia para permitir que los modelos de Llama se utilicen para mejorar otros modelos de IA.
La libertad de afinar, modificar y utilizar los modelos Llama sin restricciones tendrá críticas al código abierto La IA hace saltar las alarmas.
Zuckerberg sostiene que un enfoque de código abierto es la mejor manera de evitar daños no deseados. Si un modelo de IA está abierto al escrutinio, es menos probable que desarrolle comportamientos emergentes peligrosos que, de otro modo, pasaríamos por alto en modelos cerrados.
En cuanto al potencial de daño intencionado, Zuckerberg afirma: "Mientras todo el mundo tenga acceso a generaciones similares de modelos -lo que promueve el código abierto-, los gobiernos y las instituciones con más recursos informáticos podrán poner en jaque a los malos actores con menos recursos informáticos."
En cuanto al riesgo de que adversarios estatales como China accedan a los modelos de Meta, Zuckerberg afirma que los esfuerzos por mantenerlos fuera del alcance de los chinos no van a funcionar.
"A nuestros adversarios se les da muy bien el espionaje, robar modelos que caben en una memoria USB es relativamente fácil, y la mayoría de las empresas tecnológicas están lejos de operar de una forma que lo dificulte", explicó.
El entusiasmo por un modelo de IA de código abierto como Llama 3.1 405B que se enfrente a los grandes modelos cerrados está justificado.
Pero con los susurros de GPT-5 y Claude 3.5 Opus esperando entre bastidores, estos resultados de referencia podrían no envejecer muy bien.