Stability AI lanserer sin tekst-til-bilde-generator i sanntid

29. november 2023

Stability AI har nettopp lansert sin toppmoderne tekst-til-bilde-generator i sanntid, SDXL Turbo.

Når du bruker AI-tekst-til-bilde-generatorer, er det vanligvis minst noen sekunders ventetid mellom melding og bilde. Med SDXL Turbo genereres bildet på millisekunder.

Det som gjør dette enda mer imponerende, er at bildet endrer seg i sanntid mens du redigerer ledeteksten, like raskt som du kan skrive.

Stability AIs demovideo gir deg en god følelse av hvor banebrytende dette er.

Adversarial diffusjonsdestillasjon

Den hemmelige sausen bak dette er en ny destillasjonsteknikk som kalles Adversarial diffusjonsdestillasjon (ADD).

Standard diffusjonsmodeller (DM) ligger bak de fleste AI-bildegeneratorer og leverer bilder av høy kvalitet. En DM starter med et støyfylt bilde og fjerner støyen gradvis til det ligner et bilde som er relatert til ledeteksten.

Inferensprosessen med en DM er en langsom, iterativ prosess som krever mange trinn og mye databehandling.

Det andre alternativet for bildegenerering er å bruke Generative Adversarial Networks (GAN). Et GAN spiller et kontradiktorisk spill mellom en generator og et diskriminerende nevralt nettverk. GAN produserer et bilde i ett enkelt trinn, så de er veldig raske.

Problemet med GAN-generatorer er at de ikke skalerer godt, og at de noen ganger kan lide av moduskollaps. Dette skjer når generatoren blir sittende fast i et lokalt optimum og bare produserer et begrenset utvalg av bilder.

ADD er en slags hybridmodell mellom de to tilnærmingene. Den kombinerer skalerbarheten og kvaliteten til en DM med hastigheten til en GAN.

Og den er veldig rask. Når du kjører SDXL Turbo på en Nvidia A100, genererer den et 512×512-bilde på 207 ms.

Modellvektene og koden er tilgjengelig for ikke-kommersiell bruk på Hugging Face. Hvis du vil prøve beta-demoen, kan du sjekke den ut på Clipdrop. Demoen gir deg en følelse av hastigheten, men kvaliteten på bildene er redusert.

SDXL Turbo kan også stilles inn til å bruke 2 eller 4 trinn for å generere et bilde med enda bedre kvalitet.

Enkelttrinn 512×512-bilder generert av SDXL Turbo. Kilde: Stability AI: Stability AI

Store konsekvenser

Den første reaksjonen din vil kanskje være lettelse over å slippe å vente så lenge på at bildet ditt blir generert, og det er et stort pluss.

Men SDXL Turbo vil oppnå så mye mer. Med sin ett-trinns tilnærming til bildegenerering er det bare å tenke på hvor mye datakraft som blir frigjort.

Sanntidsgenereringen betyr at du etter hvert kan lage animasjoner eller dynamiske bilder som passer til teksten i en fortelling i sanntid.

Det er knapt fire måneder siden Stability AI lanserte sin forbedrede diffusjonsmodell, SDXL 1.0, som allerede var veldig bra.

I blindtester foretrakk brukerne bildene som ble generert av SDXL Turbo i 4 trinn, fremfor de som ble generert av SDXL i 50 trinn. En 12 ganger så stor effektivitetsforbedring på bare fire måneder er utrolig.

Det får deg til å lure på hvor gode AI-bildegeneratorer vil være om et år.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser