A Stability AI acaba de anunciar o lançamento do seu gerador de texto-imagem em tempo real de última geração denominado SDXL Turbo.
Quando utiliza geradores de texto para imagem de IA, normalmente há pelo menos alguns segundos de tempo de espera entre o pedido e a imagem. Com o SDXL Turbo, a imagem é gerada em milissegundos.
O que torna isto ainda mais impressionante é que, à medida que edita o seu prompt, a imagem muda em tempo real com a mesma rapidez com que escreve.
O vídeo de demonstração da Stability AI dá-lhe uma boa ideia de como isto é inovador.
Difusão Adversarial Destilação
O molho secreto por detrás disto é uma nova técnica de destilação chamada Difusão Adversarial Destilação (ADD).
Os modelos de difusão (DM) padrão estão na base da maioria dos geradores de imagens de IA e fornecem imagens de alta qualidade. Um DM começa com uma imagem com ruído e remove gradualmente o ruído até se assemelhar a uma imagem relacionada com o pedido.
O processo de inferência com um DM é um processo lento e iterativo que requer muitos passos e muito processamento informático.
A outra alternativa de geração de imagens é a utilização de Redes Adversárias Generativas (GAN). Uma GAN joga um jogo contraditório entre um gerador e uma rede neural discriminadora. As GANs produzem uma imagem num único passo, pelo que são muito rápidas.
O problema com os GANs é que não escalam bem e podem, por vezes, sofrer de colapso de modo. Isto acontece quando o gerador fica preso num ótimo local e produz apenas uma variedade limitada de imagens.
O ADD é uma espécie de modelo híbrido entre as duas abordagens. Combina a escalabilidade e a qualidade de um DM com a velocidade de um GAN.
E é muito rápido. Ao executar o SDXL Turbo numa Nvidia A100, gera uma imagem de 512×512 em 207 ms.
Os pesos do modelo e o código estão disponíveis para utilização não comercial em Hugging Face. Se quiser experimentar a demonstração beta, pode fazê-lo em Clipdrop. A demonstração dá-lhe uma ideia da velocidade, mas a qualidade das imagens é reduzida.
O SDXL Turbo também pode ser definido para utilizar 2 ou 4 passos para gerar uma imagem com uma qualidade ainda melhor.
Grandes implicações
A sua primeira reação pode ser de alívio por não ter de esperar tanto tempo para que a sua imagem seja gerada, o que é uma grande vantagem.
Mas o SDXL Turbo vai conseguir muito mais. Com a sua abordagem de geração de imagens num único passo, basta pensar na quantidade de potência de computação que será libertada.
A capacidade de geração em tempo real significa que pode eventualmente criar animações ou imagens dinâmicas para corresponder ao texto de uma história em tempo real.
Passaram apenas 4 meses desde que a Stability AI lançou o seu modelo de difusão melhorado, SDXL 1.0, que já era muito bom.
Em testes cegos, os utilizadores preferiram as imagens geradas pelo SDXL Turbo em 4 passos às imagens geradas pelo SDXL em 50 passos. Uma melhoria de eficiência de 12x em apenas quatro meses é espantosa.
Faz-nos pensar até que ponto os geradores de imagens com IA serão bons daqui a um ano.