Apple revela MM1, su primera familia de LLM multimodales

18 de marzo de 2024

  • Los ingenieros de Apple publican un trabajo de investigación sobre los modelos de lenguaje multimodal de gran tamaño (MLLM)
  • El artículo describe cómo se construyó una familia de MLLMs de hasta 30B parámetros llamada MM1
  • MM1 muestra impresionantes subtítulos de imágenes, respuesta a preguntas visuales, inferencia de lenguaje natural

Apple aún no ha lanzado oficialmente un modelo de IA, pero un nuevo trabajo de investigación da una idea de los avances de la compañía en el desarrollo de modelos con capacidades multimodales de última generación.

El periódicotitulado "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training", presenta la familia de MLLM de Apple denominada MM1.

MM1 muestra unas capacidades impresionantes en el subtitulado de imágenes, la respuesta a preguntas visuales (VQA) y la inferencia de lenguaje natural. Los investigadores explican que la cuidadosa elección de los pares imagen-titular les permitió obtener resultados superiores, especialmente en escenarios de aprendizaje con pocas imágenes.

Lo que diferencia al MM1 de otros MLLM es su capacidad superior para seguir instrucciones a través de múltiples imágenes y para razonar sobre las complejas escenas que se le presentan.

Los modelos MM1 contienen hasta 30B de parámetros, el triple que GPT-4V, el componente que dota a GPT-4 de OpenAI de sus capacidades de visión.

Estos son algunos ejemplos de las capacidades VQA de MM1.

Probando la capacidad de MM1 para razonar a través de imágenes y textos. Fuente: arXiv

MM1 se sometió a un preentrenamiento multimodal a gran escala sobre "un conjunto de datos de 500M documentos imagen-texto intercalados, que contenían 1B imágenes y 500B tokens de texto".

La escala y la diversidad de su preentrenamiento permiten a MM1 realizar impresionantes predicciones en contexto y seguir un formato personalizado con un pequeño número de ejemplos de pocas tomas. A continuación se muestran ejemplos de cómo MM1 aprende la salida y el formato deseados a partir de solo 3 ejemplos.

MM1 puede contar objetos, realizar OCR en áreas específicas de una imagen, aplicar razonamientos de sentido común a objetos y realizar funciones matemáticas básicas. Fuente: arXiv

Para crear modelos de IA que puedan "ver" y razonar se necesita un conector de visión-lenguaje que traduzca las imágenes y el lenguaje en una representación unificada que el modelo pueda utilizar para su posterior procesamiento.

Los investigadores descubrieron que el diseño del conector visión-lenguaje era un factor menos determinante en el rendimiento de MM1. Curiosamente, fueron la resolución de la imagen y el número de tokens de imagen los que tuvieron un mayor impacto.

Es interesante ver lo abierta que ha sido Apple a la hora de compartir sus investigaciones con la comunidad de la IA en general. Los investigadores afirman que "en este artículo, documentamos el proceso de construcción de MLLM e intentamos formular lecciones de diseño, que esperamos sean de utilidad para la comunidad."

Es probable que los resultados publicados orienten a otros desarrolladores de MMLM en la elección de la arquitectura y los datos de preentrenamiento.

Queda por ver cómo se implementarán exactamente los modelos MM1 en los productos de Apple. Los ejemplos publicados de las capacidades de MM1 apuntan a que Siri será mucho más inteligente cuando aprenda a ver.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales