A Meta afirma que o seu gerador de imagens com IA é topo de gama

18 de julho de 2023

A Meta apresentou o seu gerador de imagens com IA, denominado CM3leon, e afirma que este oferece um desempenho de ponta.

O CM3leon, pronunciado "chameleon", representa uma mudança no desempenho na corrida da geração de texto para imagem. Enquanto ferramentas como DALL-E e Stable Diffusion geram imagens impressionantes, em o seu anúncio A Meta afirma que o CM3leon tem uma vantagem sobre estas ferramentas numa série de áreas.

A maioria dos modelos, como o Stable Diffusion e o DALL-E, são modelos de difusão. Estes modelos produzem óptimos resultados, mas a sua abordagem passo a passo para a geração de imagens é lenta e necessita de muito poder de processamento. O modelo da Meta é um modelo de transformação que, segundo a empresa, tem um desempenho superior a modelos como o Parti da Google. 

É também um modelo muito mais eficiente, exigindo 5 vezes menos processamento informático para a formação e conjuntos de dados de formação muito mais pequenos do que outros modelos.

O CM3leon é um dos primeiros modelos que pode gerar legendas longas e curtas para imagens. Também é possível fazer-lhe perguntas sobre a imagem. Meta deu um exemplo de como o CM3leon responde a perguntas sobre uma fotografia de um cão a carregar um pau.

Imagem de cão e pau gerada por CM3leon
Imagem de cão e pau gerada por CM3leon. Fonte: Meta

Pergunta do prompt: O que é que o cão transporta?

Geração de modelos: Pau

Prompt: Descreva a imagem dada com muito pormenor.

Geração de modelos: Nesta imagem, há um cão a segurar um pau na boca. Há relva na superfície. No fundo da imagem, há árvores.

O CM3leon é capaz de responder muito bem a pormenores específicos ou a nuances nos avisos. E as imagens de amostra que a Meta utilizou no seu anúncio parecem mostrar que tem um melhor desempenho do que outros modelos com coisas complicadas como mãos humanas e adição de texto a imagens geradas.

Imagens geradas pelo CM3leon da Meta
Imagens geradas pelo CM3leon da Meta. Fonte: Meta

Os respectivos avisos para estas imagens foram:

(1) Um pequeno cato com um chapéu de palha e óculos de sol de néon no deserto do Sara. (2) Uma fotografia em grande plano de uma mão humana, modelo de mão. Alta qualidade. (3) Um guaxinim, personagem principal de uma anime, preparando-se para uma batalha épica com uma espada de samurai. Posição de batalha. Fantasia, Ilustração. (4) Um sinal de paragem em estilo fantasia com o texto "1991".

Outras funcionalidades interessantes que o Meta destacou são a edição de imagens baseada em texto e guiada por estruturas. Estas permitem-lhe utilizar texto para solicitar edições como "mudar o céu para azul" ou colocar um item numa coordenada x-y específica na imagem.

O CM3leon foi treinado com base em milhões de imagens licenciadas da Shutterstock, em vez da abordagem abrangente que outros modelos têm adotado criticado por. Tal como acontece com outros modelos, Meta diz que o CM3leon reflectirá as tendências dos dados de treino. Assim, se lhe pedirmos para gerar uma imagem de um trabalhador da construção civil, é provável que crie uma imagem de um homem.  

Mas a Meta está, pelo menos, a ser franca sobre este assunto e comentou a questão do preconceito dizendo: "Embora a indústria ainda esteja numa fase inicial de compreensão e resolução destes desafios, acreditamos que a transparência será fundamental para acelerar o progresso".

Com base nos exemplos apresentados no seu lançamento e nas declarações de desempenho, parece que o CM3leon é mais eficiente e muito melhor na compreensão espacial e contextual dos pedidos de texto do que outros geradores de imagens de IA. 

A Meta ainda não disse quando vai lançar o CM3leon, pelo que, para já, teremos de acreditar na sua palavra sobre o bom funcionamento destas funcionalidades.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições