Stability AI presenterar sin text-till-bild-generator i realtid

29 november 2023

Stability AI tillkännagav just lanseringen av sin toppmoderna text-till-bild-generator i realtid som heter SDXL Turbo.

När du använder AI-text-till-bild-generatorer är det vanligtvis minst några sekunders väntetid mellan uppmaning och bild. Med SDXL Turbo genereras bilden på några millisekunder.

Det som gör detta ännu mer imponerande är att när du redigerar din prompt ändras bilden i realtid lika snabbt som du kan skriva.

I Stability AI:s demovideo får du en bra känsla för hur banbrytande detta är.

Adversarial Diffusion Destillation

Den hemliga såsen bakom detta är en ny destillationsteknik som kallas Adversarial Diffusion Destillation (ADD).

Standarddiffusionsmodeller (DM) ligger bakom de flesta AI-bildgeneratorer och ger bilder av hög kvalitet. En DM börjar med en brusig bild och tar gradvis bort bruset tills den liknar en bild som är relaterad till frågan.

Inferensprocessen med en DM är en långsam, iterativ process som kräver många steg och mycket datorbearbetning.

Det andra alternativet för bildgenerering är att använda Generative Adversarial Networks (GAN). Ett GAN spelar ett kontradiktoriskt spel mellan en generator och ett diskriminatorneuralt nätverk. GAN producerar en bild i ett enda steg så de är riktigt snabba.

Problemet med GAN är att de inte skalar bra och att de ibland kan drabbas av modekollaps. Detta inträffar när generatorn fastnar i ett lokalt optimum och bara producerar ett begränsat antal bilder.

ADD är en slags hybridmodell mellan de två metoderna. Den kombinerar skalbarheten och kvaliteten hos en DM med snabbheten hos en GAN.

Och det går riktigt snabbt. När SDXL Turbo körs på en Nvidia A100 genereras en 512×512-bild på 207 ms.

Modellvikterna och koden är tillgängliga för icke-kommersiellt bruk på Hugging Face. Om du vill prova beta-demon kan du kolla in den på Clipdrop. Demot ger dig en känsla av hastigheten men kvaliteten på bilderna är reducerad.

SDXL Turbo kan också ställas in på att använda 2 eller 4 steg för att generera en bild med ännu bättre kvalitet.

512×512-bilder i ett steg genererade av SDXL Turbo. Källa: Stability AI Stabilitet AI

Stora konsekvenser

Din första reaktion på detta kan vara lättnad över att inte behöva vänta så länge på att din bild ska genereras, och det är ett stort plus.

Men SDXL Turbo kommer att åstadkomma så mycket mer. Med sin bildgenerering i ett enda steg kan du bara tänka dig hur mycket datorkraft som kommer att frigöras.

Realtidsgenereringen innebär att du så småningom kan skapa animationer eller dynamiska bilder som matchar texten i en berättelse i realtid.

Det har gått knappt 4 månader sedan Stability AI släppte sin förbättrade spridningsmodell, SDXL 1.0, som redan då var riktigt bra.

I blindtester föredrog användarna de bilder som genererats av SDXL Turbo i 4 steg framför de som genererats av SDXL i 50 steg. En 12x effektivitetsförbättring på bara fyra månader är fantastiskt.

Det får en att undra hur bra AI-bildgeneratorer kommer att vara om ett år.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar