Stability AI har netop annonceret udgivelsen af sin topmoderne tekst-til-billede-generator i realtid kaldet SDXL Turbo.
Når du bruger AI-tekst-til-billede-generatorer, er der normalt mindst et par sekunders ventetid mellem besked og billede. Med SDXL Turbo genereres billedet på millisekunder.
Det, der gør det endnu mere imponerende, er, at når du redigerer din prompt, ændres billedet i realtid lige så hurtigt, som du kan skrive.
Stability AI's demovideo giver dig en god fornemmelse af, hvor banebrydende dette er.
Adversarial diffusionsdestillation
Den hemmelige sauce bag dette er en ny destillationsteknik kaldet Adversarial diffusionsdestillation (ADD).
Standarddiffusionsmodeller (DM) ligger bag de fleste AI-billedgeneratorer og leverer billeder af høj kvalitet. En DM starter med et støjende billede og fjerner gradvist støj, indtil det ligner et billede, der er relateret til forespørgslen.
Inferensprocessen med en DM er en langsom, iterativ proces, der kræver mange trin og masser af computerbehandling.
Det andet alternativ til billedgenerering er at bruge Generative Adversarial Networks (GAN). Et GAN spiller et kontradiktorisk spil mellem en generator og et diskriminator-neuralt netværk. GAN'er producerer et billede i et enkelt trin, så de er virkelig hurtige.
Problemet med GAN'er er, at de ikke skalerer godt, og at de nogle gange kan lide af tilstandskollaps. Det sker, når generatoren sidder fast i et lokalt optimum og kun producerer et begrænset udvalg af billeder.
ADD er en slags hybridmodel mellem de to tilgange. Den kombinerer skalerbarheden og kvaliteten af en DM med hastigheden af en GAN.
Og det er virkelig hurtigt. Når man kører SDXL Turbo på en Nvidia A100, genererer den et billede på 512×512 på 207 ms.
Modelvægtene og koden er tilgængelige til ikke-kommerciel brug på Hugging Face. Hvis du vil prøve beta-demoen, kan du tjekke den ud på Clipdrop. Demoen giver dig en fornemmelse af hastigheden, men kvaliteten af billederne er reduceret.
SDXL Turbo kan også indstilles til at bruge 2 eller 4 trin for at generere et billede med endnu bedre kvalitet.
Store konsekvenser
Din første reaktion på dette er måske lettelse over ikke at skulle vente så længe på, at dit billede bliver genereret, og det er et stort plus.
Men SDXL Turbo vil opnå meget mere. Tænk bare på, hvor meget computerkraft der bliver frigjort med dens tilgang til billedgenerering i ét trin.
Muligheden for at generere i realtid betyder, at du i sidste ende kan skabe animationer eller dynamiske billeder, der passer til en histories tekst i realtid.
Det er knap 4 måneder siden, at Stability AI udgav sin forbedrede spredningsmodel, SDXL 1.0, som allerede var rigtig god.
I blindtests foretrak brugerne de billeder, der blev genereret af SDXL Turbo i 4 trin, frem for dem, der blev genereret af SDXL i 50 trin. En 12x effektivitetsforbedring på bare fire måneder er fantastisk.
Det får en til at tænke på, hvor gode AI-billedgeneratorer vil være om et år.