Meta presentó su generador de imágenes de IA llamado CM3leon y afirma que ofrece un rendimiento de vanguardia.
CM3leon, pronunciado "camaleón", representa un cambio de rendimiento en la carrera de la generación de texto a imagen. Mientras que herramientas como DALL-E y Stable Diffusion generan imágenes impresionantes, en su anuncio Meta afirma que CM3leon aventaja a estas herramientas en varios aspectos.
La mayoría de los modelos, como Stable Diffusion y DALL-E, son modelos de difusión. Estos modelos ofrecen grandes resultados, pero su enfoque paso a paso para la generación de imágenes es lento y necesita mucha potencia de procesamiento. El modelo de Meta es un modelo transformador que, según afirma, supera a modelos como Parti de Google.
También es un modelo mucho más eficiente, ya que requiere 5 veces menos procesamiento informático para el entrenamiento y conjuntos de datos de entrenamiento mucho más pequeños que otros modelos.
CM3leon es uno de los primeros modelos capaces de generar pies de foto largos y cortos. También se le pueden hacer preguntas sobre la imagen. Meta ha dado un ejemplo de cómo CM3leon responde a preguntas sobre la imagen de un perro que lleva un palo.
Pregunta de respuesta: ¿Qué lleva el perro?
Generación de modelos: Stick
Prompt: Describa la imagen dada con todo detalle.
Generación de modelos: En esta imagen aparece un perro con un palo en la boca. Hay hierba en la superficie. En el fondo de la imagen hay árboles.
CM3leon es capaz de responder muy bien a detalles específicos o matices en las indicaciones. Y las imágenes de muestra que Meta utiliza en su anuncio parecen demostrar que se comporta mejor que otros modelos con cosas complicadas como las manos humanas y la adición de texto a las imágenes generadas.
Las indicaciones respectivas para estas imágenes eran:
(1) Un pequeño cactus con sombrero de paja y gafas de sol de neón en el desierto del Sahara. (2) Foto de primer plano de una mano humana, modelo de mano. Alta calidad. (3) Un mapache protagonista de un Anime preparándose para una batalla épica con una espada samurai. Postura de batalla. Fantasía, Ilustración. (4) Una señal de stop en estilo Fantasía con el texto "1991".
Otras funciones interesantes que ha destacado Meta son la edición de imágenes basada en texto y la guiada por estructuras. Éstas permiten utilizar texto para solicitar ediciones como "cambiar el cielo a azul" o colocar un elemento en una coordenada x-y específica de la imagen.
CM3leon ha sido entrenado con millones de imágenes con licencia de Shutterstock, en lugar de con el enfoque generalizado de "machacar y coger" de otros modelos. criticado por. Como ocurre con otros modelos, Meta afirma que CM3leon reflejará los sesgos de los datos de entrenamiento. Así, si le pides que genere la imagen de un obrero de la construcción, probablemente creará la imagen de un hombre.
Pero Meta, al menos, está siendo franca al respecto y ha comentado la cuestión de la parcialidad diciendo: "Aunque el sector se encuentra todavía en sus primeras fases de comprensión y abordaje de estos retos, creemos que la transparencia será clave para acelerar el progreso."
A partir de los ejemplos de su comunicado y de las afirmaciones sobre rendimiento, parece que CM3leon es más eficiente y mucho mejor en la comprensión espacial y contextual de las indicaciones de texto que otros generadores de imágenes de IA.
Meta no ha dicho cuándo lanzará CM3leon, así que por ahora tendremos que confiar en su palabra.