A Meta apresentou o seu gerador de imagens com IA, denominado CM3leon, e afirma que este oferece um desempenho de ponta.
O CM3leon, pronunciado "chameleon", representa uma mudança no desempenho na corrida da geração de texto para imagem. Enquanto ferramentas como DALL-E e Stable Diffusion geram imagens impressionantes, em o seu anúncio A Meta afirma que o CM3leon tem uma vantagem sobre estas ferramentas numa série de áreas.
A maioria dos modelos, como o Stable Diffusion e o DALL-E, são modelos de difusão. Estes modelos produzem óptimos resultados, mas a sua abordagem passo a passo para a geração de imagens é lenta e necessita de muito poder de processamento. O modelo da Meta é um modelo de transformação que, segundo a empresa, tem um desempenho superior a modelos como o Parti da Google.
É também um modelo muito mais eficiente, exigindo 5 vezes menos processamento informático para a formação e conjuntos de dados de formação muito mais pequenos do que outros modelos.
O CM3leon é um dos primeiros modelos que pode gerar legendas longas e curtas para imagens. Também é possível fazer-lhe perguntas sobre a imagem. Meta deu um exemplo de como o CM3leon responde a perguntas sobre uma fotografia de um cão a carregar um pau.
Pergunta do prompt: O que é que o cão transporta?
Geração de modelos: Pau
Prompt: Descreva a imagem dada com muito pormenor.
Geração de modelos: Nesta imagem, há um cão a segurar um pau na boca. Há relva na superfície. No fundo da imagem, há árvores.
O CM3leon é capaz de responder muito bem a pormenores específicos ou a nuances nos avisos. E as imagens de amostra que a Meta utilizou no seu anúncio parecem mostrar que tem um melhor desempenho do que outros modelos com coisas complicadas como mãos humanas e adição de texto a imagens geradas.
Os respectivos avisos para estas imagens foram:
(1) Um pequeno cato com um chapéu de palha e óculos de sol de néon no deserto do Sara. (2) Uma fotografia em grande plano de uma mão humana, modelo de mão. Alta qualidade. (3) Um guaxinim, personagem principal de uma anime, preparando-se para uma batalha épica com uma espada de samurai. Posição de batalha. Fantasia, Ilustração. (4) Um sinal de paragem em estilo fantasia com o texto "1991".
Outras funcionalidades interessantes que o Meta destacou são a edição de imagens baseada em texto e guiada por estruturas. Estas permitem-lhe utilizar texto para solicitar edições como "mudar o céu para azul" ou colocar um item numa coordenada x-y específica na imagem.
O CM3leon foi treinado com base em milhões de imagens licenciadas da Shutterstock, em vez da abordagem abrangente que outros modelos têm adotado criticado por. Tal como acontece com outros modelos, Meta diz que o CM3leon reflectirá as tendências dos dados de treino. Assim, se lhe pedirmos para gerar uma imagem de um trabalhador da construção civil, é provável que crie uma imagem de um homem.
Mas a Meta está, pelo menos, a ser franca sobre este assunto e comentou a questão do preconceito dizendo: "Embora a indústria ainda esteja numa fase inicial de compreensão e resolução destes desafios, acreditamos que a transparência será fundamental para acelerar o progresso".
Com base nos exemplos apresentados no seu lançamento e nas declarações de desempenho, parece que o CM3leon é mais eficiente e muito melhor na compreensão espacial e contextual dos pedidos de texto do que outros geradores de imagens de IA.
A Meta ainda não disse quando vai lançar o CM3leon, pelo que, para já, teremos de acreditar na sua palavra sobre o bom funcionamento destas funcionalidades.