Microsoft lanza Phi-3 Mini, un LM diminuto pero potente

24 de abril de 2024
  • Microsoft lanza Phi-3 Mini, el primero de su nueva familia de pequeños modelos lingüísticos (SLM)
  • Phi-3 Mini consta de sólo 3,8 B de parámetros, pero rinde mejor que modelos del doble de su tamaño
  • Microsoft afirma que las SLM son soluciones ideales para funciones específicas, menores costes y uso offline

Microsoft ha lanzado Phi-3 Mini, un minúsculo modelo de lenguaje que forma parte de la estrategia de la empresa para desarrollar modelos de IA ligeros y con funciones específicas.

La progresión de los modelos lingüísticos ha ido acompañada de parámetros, conjuntos de datos de entrenamiento y ventanas de contexto cada vez mayores. El aumento del tamaño de estos modelos ha proporcionado capacidades más potentes, pero a un coste.

El método tradicional para entrenar a un LLM consiste en hacer que consuma cantidades ingentes de datos, lo que requiere enormes recursos informáticos. Se calcula que entrenar un LLM como GPT-4, por ejemplo, ha llevado unos 3 meses y ha costado más de $21m.

GPT-4 es una gran solución para tareas que requieren un razonamiento complejo, pero excesiva para tareas más sencillas como la creación de contenidos o un chatbot de ventas. Es como utilizar una navaja suiza cuando lo único que necesitas es un simple abrecartas.

Con sólo 3,8 B de parámetros, Phi-3 Mini es diminuto. Aun así, Microsoft afirma que es una solución ligera y de bajo coste ideal para tareas como resumir un documento, extraer información de informes y redactar descripciones de productos o mensajes en redes sociales.

Las cifras de referencia de MMLU muestran que Phi-3 Mini y los modelos Phi de mayor tamaño aún por lanzar superan a modelos más grandes como Mistral 7B y Gemma 7B.

Rendimiento de los modelos Phi-3 en la prueba de referencia Massive Multitask Language Understanding (MMLU) en comparación con otros modelos de tamaño similar. Fuente: Microsoft

Microsoft afirma que Phi-3-small (7B parámetros) y Phi-3-medium (14B parámetros) estarán disponibles en el Azure AI Model Catalog "en breve".

Los modelos más grandes, como el GPT-4, siguen siendo el estándar de oro y probablemente podemos esperar que el GPT-5 sea aún mayor.

Las SLM como Phi-3 Mini ofrecen algunas ventajas importantes que los modelos más grandes no tienen. Los SLM son más baratos de ajustar, requieren menos computación y pueden funcionar en el dispositivo incluso en situaciones en las que no se dispone de acceso a Internet.

El despliegue de un SLM en el perímetro reduce la latencia y maximiza la privacidad, ya que no es necesario enviar datos de un lado a otro de la nube.

Aquí está Sebastien Bubeck, vicepresidente de investigación GenAI en Microsoft AI con una demostración de Phi-3 Mini. Es superrápido e impresionante para un modelo tan pequeño.

Datos sintéticos conservados

Phi-3 Mini es el resultado de descartar la idea de que grandes cantidades de datos son la única forma de entrenar un modelo.

Sebastien Bubeck, vicepresidente de investigación de IA generativa de Microsoft, preguntó: "En lugar de entrenar sólo con datos web sin procesar, ¿por qué no se buscan datos de altísima calidad?".

Ronen Eldan, experto en aprendizaje automático de Microsoft Research, estaba leyendo cuentos a su hija cuando se preguntó si un modelo lingüístico podría aprender utilizando sólo palabras que un niño de 4 años pudiera entender.

Esto les llevó a un experimento en el que crearon un conjunto de datos a partir de 3.000 palabras. Utilizando solo este vocabulario limitado, incitaron a un LLM a crear millones de cuentos infantiles cortos que se recopilaron en un conjunto de datos llamado TinyStories.

A continuación, los investigadores utilizaron TinyStories para entrenar un modelo extremadamente pequeño de 10 millones de parámetros que, posteriormente, fue capaz de generar "narraciones fluidas con una gramática perfecta".

Continuaron iterando y ampliando este enfoque de generación de datos sintéticos para crear conjuntos de datos sintéticos más avanzados, pero cuidadosamente seleccionados y filtrados, que finalmente se utilizaron para entrenar Phi-3 Mini.

El resultado es un modelo diminuto que será más asequible y ofrecerá un rendimiento comparable al de GPT-3.5.

Con modelos más pequeños pero más capaces, las empresas dejarán de recurrir por defecto a grandes LLM como GPT-4. También podríamos ver pronto soluciones en las que un LLM se encargue del trabajo pesado, pero delegue tareas más sencillas en modelos ligeros. También podríamos ver pronto soluciones en las que un LLM se encargue del trabajo pesado pero delegue las tareas más sencillas en modelos ligeros.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×
 
 

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI


 

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.



 
 

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales