A Meta afirma que o seu gerador de imagens com IA é topo de gama

A Meta apresentou o seu gerador de imagens com IA, denominado CM3leon, e afirma que este oferece um desempenho de ponta.

O CM3leon, pronunciado "chameleon", representa uma mudança no desempenho na corrida da geração de texto para imagem. Enquanto ferramentas como DALL-E e Stable Diffusion geram imagens impressionantes, em o seu anúncio A Meta afirma que o CM3leon tem uma vantagem sobre estas ferramentas numa série de áreas.

A maioria dos modelos, como o Stable Diffusion e o DALL-E, são modelos de difusão. Estes modelos produzem óptimos resultados, mas a sua abordagem passo a passo para a geração de imagens é lenta e necessita de muito poder de processamento. O modelo da Meta é um modelo de transformação que, segundo a empresa, tem um desempenho superior a modelos como o Parti da Google.

É também um modelo muito mais eficiente, exigindo 5 vezes menos processamento informático para a formação e conjuntos de dados de formação muito mais pequenos do que outros modelos.

O CM3leon é um dos primeiros modelos que pode gerar legendas longas e curtas para imagens. Também é possível fazer-lhe perguntas sobre a imagem. Meta deu um exemplo de como o CM3leon responde a perguntas sobre uma fotografia de um cão a carregar um pau.

Imagem de cão e pau gerada por CM3leon. Fonte: Meta

Pergunta do prompt: O que é que o cão transporta?

Geração de modelos: Pau

Prompt: Descreva a imagem dada com muito pormenor.

Geração de modelos: Nesta imagem, há um cão a segurar um pau na boca. Há relva na superfície. No fundo da imagem, há árvores.

O CM3leon é capaz de responder muito bem a pormenores específicos ou a nuances nos avisos. E as imagens de amostra que a Meta utilizou no seu anúncio parecem mostrar que tem um melhor desempenho do que outros modelos com coisas complicadas como mãos humanas e adição de texto a imagens geradas.

Imagens geradas pelo CM3leon da Meta. Fonte: Meta

Os respectivos avisos para estas imagens foram:

(1) Um pequeno cato com um chapéu de palha e óculos de sol de néon no deserto do Sara. (2) Uma fotografia em grande plano de uma mão humana, modelo de mão. Alta qualidade. (3) Um guaxinim, personagem principal de uma anime, preparando-se para uma batalha épica com uma espada de samurai. Posição de batalha. Fantasia, Ilustração. (4) Um sinal de paragem em estilo fantasia com o texto "1991".

Outras funcionalidades interessantes que o Meta destacou são a edição de imagens baseada em texto e guiada por estruturas. Estas permitem-lhe utilizar texto para solicitar edições como "mudar o céu para azul" ou colocar um item numa coordenada x-y específica na imagem.

O CM3leon foi treinado com base em milhões de imagens licenciadas da Shutterstock, em vez da abordagem abrangente que outros modelos têm adotado criticado por. Tal como acontece com outros modelos, Meta diz que o CM3leon reflectirá as tendências dos dados de treino. Assim, se lhe pedirmos para gerar uma imagem de um trabalhador da construção civil, é provável que crie uma imagem de um homem.

Mas a Meta está, pelo menos, a ser franca sobre este assunto e comentou a questão do preconceito dizendo: "Embora a indústria ainda esteja numa fase inicial de compreensão e resolução destes desafios, acreditamos que a transparência será fundamental para acelerar o progresso".

Com base nos exemplos apresentados no seu lançamento e nas declarações de desempenho, parece que o CM3leon é mais eficiente e muito melhor na compreensão espacial e contextual dos pedidos de texto do que outros geradores de imagens de IA.

A Meta ainda não disse quando vai lançar o CM3leon, pelo que, para já, teremos de acreditar na sua palavra sobre o bom funcionamento destas funcionalidades.

A Meta afirma que o seu gerador de imagens com IA é topo de gama

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

A Meta afirma que o seu gerador de imagens com IA é topo de gama

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI