Stability AI har nettopp lansert sin toppmoderne tekst-til-bilde-generator i sanntid, SDXL Turbo.
Når du bruker AI-tekst-til-bilde-generatorer, er det vanligvis minst noen sekunders ventetid mellom melding og bilde. Med SDXL Turbo genereres bildet på millisekunder.
Det som gjør dette enda mer imponerende, er at bildet endrer seg i sanntid mens du redigerer ledeteksten, like raskt som du kan skrive.
Stability AIs demovideo gir deg en god følelse av hvor banebrytende dette er.
Adversarial diffusjonsdestillasjon
Den hemmelige sausen bak dette er en ny destillasjonsteknikk som kalles Adversarial diffusjonsdestillasjon (ADD).
Standard diffusjonsmodeller (DM) ligger bak de fleste AI-bildegeneratorer og leverer bilder av høy kvalitet. En DM starter med et støyfylt bilde og fjerner støyen gradvis til det ligner et bilde som er relatert til ledeteksten.
Inferensprosessen med en DM er en langsom, iterativ prosess som krever mange trinn og mye databehandling.
Det andre alternativet for bildegenerering er å bruke Generative Adversarial Networks (GAN). Et GAN spiller et kontradiktorisk spill mellom en generator og et diskriminerende nevralt nettverk. GAN produserer et bilde i ett enkelt trinn, så de er veldig raske.
Problemet med GAN-generatorer er at de ikke skalerer godt, og at de noen ganger kan lide av moduskollaps. Dette skjer når generatoren blir sittende fast i et lokalt optimum og bare produserer et begrenset utvalg av bilder.
ADD er en slags hybridmodell mellom de to tilnærmingene. Den kombinerer skalerbarheten og kvaliteten til en DM med hastigheten til en GAN.
Og den er veldig rask. Når du kjører SDXL Turbo på en Nvidia A100, genererer den et 512×512-bilde på 207 ms.
Modellvektene og koden er tilgjengelig for ikke-kommersiell bruk på Hugging Face. Hvis du vil prøve beta-demoen, kan du sjekke den ut på Clipdrop. Demoen gir deg en følelse av hastigheten, men kvaliteten på bildene er redusert.
SDXL Turbo kan også stilles inn til å bruke 2 eller 4 trinn for å generere et bilde med enda bedre kvalitet.
Store konsekvenser
Den første reaksjonen din vil kanskje være lettelse over å slippe å vente så lenge på at bildet ditt blir generert, og det er et stort pluss.
Men SDXL Turbo vil oppnå så mye mer. Med sin ett-trinns tilnærming til bildegenerering er det bare å tenke på hvor mye datakraft som blir frigjort.
Sanntidsgenereringen betyr at du etter hvert kan lage animasjoner eller dynamiske bilder som passer til teksten i en fortelling i sanntid.
Det er knapt fire måneder siden Stability AI lanserte sin forbedrede diffusjonsmodell, SDXL 1.0, som allerede var veldig bra.
I blindtester foretrakk brukerne bildene som ble generert av SDXL Turbo i 4 trinn, fremfor de som ble generert av SDXL i 50 trinn. En 12 ganger så stor effektivitetsforbedring på bare fire måneder er utrolig.
Det får deg til å lure på hvor gode AI-bildegeneratorer vil være om et år.