Stability AI revela o seu gerador de texto-imagem em tempo real

29 de novembro de 2023

A Stability AI acaba de anunciar o lançamento do seu gerador de texto-imagem em tempo real de última geração denominado SDXL Turbo.

Quando utiliza geradores de texto para imagem de IA, normalmente há pelo menos alguns segundos de tempo de espera entre o pedido e a imagem. Com o SDXL Turbo, a imagem é gerada em milissegundos.

O que torna isto ainda mais impressionante é que, à medida que edita o seu prompt, a imagem muda em tempo real com a mesma rapidez com que escreve.

O vídeo de demonstração da Stability AI dá-lhe uma boa ideia de como isto é inovador.

Difusão Adversarial Destilação

O molho secreto por detrás disto é uma nova técnica de destilação chamada Difusão Adversarial Destilação (ADD).

Os modelos de difusão (DM) padrão estão na base da maioria dos geradores de imagens de IA e fornecem imagens de alta qualidade. Um DM começa com uma imagem com ruído e remove gradualmente o ruído até se assemelhar a uma imagem relacionada com o pedido.

O processo de inferência com um DM é um processo lento e iterativo que requer muitos passos e muito processamento informático.

A outra alternativa de geração de imagens é a utilização de Redes Adversárias Generativas (GAN). Uma GAN joga um jogo contraditório entre um gerador e uma rede neural discriminadora. As GANs produzem uma imagem num único passo, pelo que são muito rápidas.

O problema com os GANs é que não escalam bem e podem, por vezes, sofrer de colapso de modo. Isto acontece quando o gerador fica preso num ótimo local e produz apenas uma variedade limitada de imagens.

O ADD é uma espécie de modelo híbrido entre as duas abordagens. Combina a escalabilidade e a qualidade de um DM com a velocidade de um GAN.

E é muito rápido. Ao executar o SDXL Turbo numa Nvidia A100, gera uma imagem de 512×512 em 207 ms.

Os pesos do modelo e o código estão disponíveis para utilização não comercial em Hugging Face. Se quiser experimentar a demonstração beta, pode fazê-lo em Clipdrop. A demonstração dá-lhe uma ideia da velocidade, mas a qualidade das imagens é reduzida.

O SDXL Turbo também pode ser definido para utilizar 2 ou 4 passos para gerar uma imagem com uma qualidade ainda melhor.

Imagens de 512×512 de passo único geradas pelo SDXL Turbo. Fonte: Estabilidade AI

Grandes implicações

A sua primeira reação pode ser de alívio por não ter de esperar tanto tempo para que a sua imagem seja gerada, o que é uma grande vantagem.

Mas o SDXL Turbo vai conseguir muito mais. Com a sua abordagem de geração de imagens num único passo, basta pensar na quantidade de potência de computação que será libertada.

A capacidade de geração em tempo real significa que pode eventualmente criar animações ou imagens dinâmicas para corresponder ao texto de uma história em tempo real.

Passaram apenas 4 meses desde que a Stability AI lançou o seu modelo de difusão melhorado, SDXL 1.0, que já era muito bom.

Em testes cegos, os utilizadores preferiram as imagens geradas pelo SDXL Turbo em 4 passos às imagens geradas pelo SDXL em 50 passos. Uma melhoria de eficiência de 12x em apenas quatro meses é espantosa.

Faz-nos pensar até que ponto os geradores de imagens com IA serão bons daqui a um ano.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições