MosaicML presenta la familia MPT-30B de modelos de IA de código abierto

24 de junio de 2023

Código abierto

MosaicML ha presentado sus nuevos modelos de IA de código abierto: MPT-30B Base, Instruct y Chat. 

Estos modelos de código abierto, que forman parte de la serie MPT (MosaicML Pre Trained Transformer), se consideran los más sofisticados de su categoría y superan al GPT-3 en la mayoría de las métricas clave. 

Mosaico entrenó a sus nuevos modelos utilizando los últimos chips H100 de NVIDIA, lanzados a principios de este año. 

MPT-30B es el primer LLM conocido públicamente entrenado en GPUs NVIDIA H100 de gama alta. 

Desde su introducción el 5 de mayo de 2023, los anteriores modelos MPT-7B de Mosaic (Base, Instruct, Chat, StoryWriter) se descargaron más de 3,3 millones de veces. MPT-30B tiene 30.000 millones de parámetros, muchos menos que los 175.000 millones de parámetros de GPT-3 o el supuesto billón de parámetros de GPT-4. 

Pero el número de parámetros no lo es todo, ni mucho menos, ya que MPT-30B se ha entrenado con secuencias más largas de hasta 8.000 tokens, 4 veces más que GPT-3, la familia de modelos LLaMA y el modelo Falcon.

Esto permite al MPT-30B gestionar mejor los flujos de trabajo empresariales con gran cantidad de datos y superar a otros modelos para flujos de trabajo con gran cantidad de código.

Varias empresas, como Replit, un IDE líder basado en web, y Scatter Lab, una startup de IA, ya han aprovechado los modelos de código abierto de MPT, que son más personalizables que los modelos patentados como GPT-3. 

Ilan Twig, cofundador y director técnico de Navan, ha declarado. "En Navan, utilizamos IA generativa en todos nuestros productos y servicios, impulsando experiencias como nuestro agente de viajes virtual y nuestro agente de inteligencia empresarial conversacional. Los modelos de base de MosaicML ofrecen capacidades lingüísticas de última generación a la vez que son extremadamente eficientes para afinar y servir inferencia a escala." 

MPT-30B, ahora disponible a través de HuggingFace Hubes totalmente de código abierto, y los desarrolladores pueden ajustarlo con sus datos. 

Mosaic pretende permitir a las empresas integrar potentes modelos de código abierto en su flujo de trabajo al tiempo que conservan la soberanía de los datos. 

La ventaja del código abierto

Los modelos de código abierto son acortar distancias rápidamente con competidores como OpenAI. 

A medida que disminuyen los recursos informáticos necesarios para entrenar y desplegar modelos, los desarrolladores de código abierto ya no necesitan superordenadores multimillonarios con cientos de procesadores de alta gama para entrenar sus modelos. 

Lo mismo ocurre con el despliegue de modelos: MPT-30B puede ejecutarse en una sola GPU, y la comunidad de código abierto incluso ha conseguido ejecutar una versión reducida del modelo LLaMa en una Raspberry PI.

Además, los modelos de código abierto confieren ventajas estratégicas a los usuarios empresariales.

Por ejemplo, las empresas de sectores como la sanidad y la banca pueden preferir no compartir sus datos con OpenAI o Google. 

Naveen Rao, cofundador y consejero delegado de MosaicML, identifica los proyectos de código abierto como aliados, afirmando que están "cerrando la brecha a estos modelos de código cerrado". Aunque reconoce la superioridad del GPT-4 de OpenAI, sostiene que los modelos de código abierto han "cruzado el umbral en el que estos modelos son realmente muy útiles."

La IA de código abierto está evolucionando rápidamente, lo que lleva a algunos a acusar a las grandes tecnológicas de presionar para que la regulación frene su crecimiento. Las empresas ya están construyendo sus propias pilas de IA de código abierto, ahorrando dinero que de otro modo podrían financiar compañías como OpenAI. 

A Memorándum filtrado de un empleado de Google afirma que todos los desarrolladores de IA de las grandes tecnológicas -Google, Microsoft, Anthropic y OpenAI- compiten con los desarrolladores de código abierto. 

Los desarrolladores de IA de código abierto pueden crear e iterar modelos más rápido que las grandes tecnológicas, lo que les permite superar a los modelos de IA convencionales.

Esto no está exento de peligros, ya que los modelos de código abierto son difíciles de supervisar y regular una vez que pasan a manos públicas.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales