Stability AI tillkännagav just lanseringen av sin toppmoderna text-till-bild-generator i realtid som heter SDXL Turbo.
När du använder AI-text-till-bild-generatorer är det vanligtvis minst några sekunders väntetid mellan uppmaning och bild. Med SDXL Turbo genereras bilden på några millisekunder.
Det som gör detta ännu mer imponerande är att när du redigerar din prompt ändras bilden i realtid lika snabbt som du kan skriva.
I Stability AI:s demovideo får du en bra känsla för hur banbrytande detta är.
Adversarial Diffusion Destillation
Den hemliga såsen bakom detta är en ny destillationsteknik som kallas Adversarial Diffusion Destillation (ADD).
Standarddiffusionsmodeller (DM) ligger bakom de flesta AI-bildgeneratorer och ger bilder av hög kvalitet. En DM börjar med en brusig bild och tar gradvis bort bruset tills den liknar en bild som är relaterad till frågan.
Inferensprocessen med en DM är en långsam, iterativ process som kräver många steg och mycket datorbearbetning.
Det andra alternativet för bildgenerering är att använda Generative Adversarial Networks (GAN). Ett GAN spelar ett kontradiktoriskt spel mellan en generator och ett diskriminatorneuralt nätverk. GAN producerar en bild i ett enda steg så de är riktigt snabba.
Problemet med GAN är att de inte skalar bra och att de ibland kan drabbas av modekollaps. Detta inträffar när generatorn fastnar i ett lokalt optimum och bara producerar ett begränsat antal bilder.
ADD är en slags hybridmodell mellan de två metoderna. Den kombinerar skalbarheten och kvaliteten hos en DM med snabbheten hos en GAN.
Och det går riktigt snabbt. När SDXL Turbo körs på en Nvidia A100 genereras en 512×512-bild på 207 ms.
Modellvikterna och koden är tillgängliga för icke-kommersiellt bruk på Hugging Face. Om du vill prova beta-demon kan du kolla in den på Clipdrop. Demot ger dig en känsla av hastigheten men kvaliteten på bilderna är reducerad.
SDXL Turbo kan också ställas in på att använda 2 eller 4 steg för att generera en bild med ännu bättre kvalitet.
Stora konsekvenser
Din första reaktion på detta kan vara lättnad över att inte behöva vänta så länge på att din bild ska genereras, och det är ett stort plus.
Men SDXL Turbo kommer att åstadkomma så mycket mer. Med sin bildgenerering i ett enda steg kan du bara tänka dig hur mycket datorkraft som kommer att frigöras.
Realtidsgenereringen innebär att du så småningom kan skapa animationer eller dynamiska bilder som matchar texten i en berättelse i realtid.
Det har gått knappt 4 månader sedan Stability AI släppte sin förbättrade spridningsmodell, SDXL 1.0, som redan då var riktigt bra.
I blindtester föredrog användarna de bilder som genererats av SDXL Turbo i 4 steg framför de som genererats av SDXL i 50 steg. En 12x effektivitetsförbättring på bara fyra månader är fantastiskt.
Det får en att undra hur bra AI-bildgeneratorer kommer att vara om ett år.