Meta a présenté son générateur d'images IA appelé CM3leon et affirme qu'il offre des performances de pointe.
CM3leon, prononcé "caméléon", représente un changement de performance dans la course à la génération de texte à partir d'images. Alors que des outils comme DALL-E et Stable Diffusion génèrent des images impressionnantes, en son annonce Meta affirme que CM3leon a une longueur d'avance sur ces outils dans un certain nombre de domaines.
La plupart des modèles tels que Stable Diffusion et DALL-E sont des modèles de diffusion. Ces modèles donnent d'excellents résultats, mais leur approche progressive de la génération d'images est lente et nécessite beaucoup de puissance de traitement. Le modèle de Meta est un modèle de transformation qui, selon lui, surpasse des modèles tels que Parti de Google.
Il s'agit également d'un modèle beaucoup plus efficace, qui nécessite cinq fois moins de traitement informatique pour l'apprentissage et des ensembles de données d'apprentissage beaucoup plus petits que les autres modèles.
CM3leon est l'un des premiers modèles capables de générer des légendes courtes et longues pour les images. Vous pouvez également lui poser des questions sur l'image. Meta a donné un exemple de la façon dont CM3leon répond à des questions sur l'image d'un chien portant un bâton.
Question incitative : Que transporte le chien ?
Génération du modèle : Bâton
Prompt : Décrivez l'image donnée dans les moindres détails.
Génération du modèle : Sur cette image, un chien tient un bâton dans sa gueule. Il y a de l'herbe à la surface. Dans le fond de l'image, il y a des arbres.
CM3leon est capable de répondre très bien à des détails spécifiques ou à des nuances dans les invites. Les exemples d'images utilisés par Meta dans son communiqué semblent montrer qu'il est plus performant que d'autres modèles pour les tâches délicates telles que les mains humaines et l'ajout de texte aux images générées.
Ces images ont été réalisées à l'aide des questions suivantes
(1) Un petit cactus portant un chapeau de paille et des lunettes de soleil fluo dans le désert du Sahara. (2) Photo en gros plan d'une main humaine, modèle de main. Haute qualité. (3) Un raton laveur, personnage principal d'un film d'animation, se préparant à une bataille épique avec un sabre de samouraï. Position de combat. Fantaisie, Illustration. (4) Un panneau d'arrêt dans un style fantastique avec le texte "1991".
D'autres fonctionnalités intéressantes mises en évidence par Meta sont l'édition d'images basée sur le texte et l'édition d'images guidée par la structure. Elles vous permettent d'utiliser du texte pour demander des modifications telles que "changer le ciel en bleu" ou pour placer un élément à une coordonnée x-y spécifique dans l'image.
CM3leon a été formé sur des millions d'images sous licence de Shutterstock, plutôt que sur l'approche générale de type "smash-and-grab" adoptée par d'autres modèles. critiquée pour. Comme pour les autres modèles, Meta indique que CM3leon reflète les biais des données d'apprentissage. Ainsi, si vous lui demandez de générer l'image d'un ouvrier du bâtiment, il créera probablement l'image d'un homme.
Mais Meta est au moins honnête à ce sujet et a commenté la question de la partialité en déclarant : "Alors que l'industrie n'en est qu'à ses débuts pour comprendre et relever ces défis, nous pensons que la transparence sera la clé pour accélérer les progrès".
D'après les exemples présentés dans le communiqué et les performances annoncées, il semble que CM3leon soit plus efficace et beaucoup plus performant dans la compréhension spatiale et contextuelle des textes que d'autres générateurs d'images IA.
Meta n'a pas indiqué quand il sortirait CM3leon, nous devrons donc nous fier à leur parole pour savoir si ces fonctionnalités fonctionnent bien pour l'instant.