Stability AI heeft zojuist de introductie aangekondigd van zijn geavanceerde real-time tekst-naar-beeld generator genaamd SDXL Turbo.
Wanneer u AI tekst-naar-afbeelding generators gebruikt, zit er meestal minstens een paar seconden wachttijd tussen de prompt en de afbeelding. Met SDXL Turbo wordt de afbeelding in milliseconden gegenereerd.
Wat dit nog indrukwekkender maakt, is dat terwijl je je prompt bewerkt, de afbeelding in realtime verandert, net zo snel als je kunt typen.
De demonstratievideo van Stability AI geeft je een goed idee van hoe baanbrekend dit is.
Adversariële diffusie distillatie
De geheime saus hierachter is een nieuwe destillatietechniek genaamd Adversariële diffusie distillatie (ADD).
Standaard Diffusiemodellen (DM) zitten achter de meeste AI-afbeeldingsgeneratoren en leveren afbeeldingen van hoge kwaliteit. Een DM begint met een ruisende afbeelding en verwijdert geleidelijk ruis totdat het lijkt op een afbeelding die gerelateerd is aan de prompt.
Het inferentieproces met een DM is een langzaam, iteratief proces dat veel stappen en computerverwerking vergt.
Het andere alternatief voor het genereren van afbeeldingen is het gebruik van Generative Adversarial Networks (GAN). Een GAN speelt een tegenstrijdig spel tussen een generator en een discriminator neuraal netwerk. GANs produceren een afbeelding in één enkele stap, dus ze zijn erg snel.
Het probleem met GANs is dat ze niet goed schalen en dat ze soms last hebben van mode collapse. Dit gebeurt wanneer de generator vast komt te zitten in een lokaal optimum en slechts een beperkte variëteit aan beelden produceert.
ADD is een soort hybride model tussen de twee benaderingen. Het combineert de schaalbaarheid en kwaliteit van een DM met de snelheid van een GAN.
En het is echt snel. Bij het uitvoeren van SDXL Turbo op een Nvidia A100 genereert het een 512×512 afbeelding in 207 ms.
De modelgewichten en code zijn beschikbaar voor niet-commercieel gebruik op Hugging Face. Als je de beta-demo wilt proberen, kun je die bekijken op Clipdrop. De demo geeft je een idee van de snelheid, maar de kwaliteit van de afbeeldingen is minder.
SDXL Turbo kan ook worden ingesteld om 2 of 4 stappen te gebruiken om een afbeelding met een nog betere kwaliteit te genereren.
Grote gevolgen
Je eerste reactie hierop kan opluchting zijn omdat je niet zo lang hoeft te wachten tot je afbeelding is gegenereerd, en dat is een groot pluspunt.
Maar SDXL Turbo bereikt nog veel meer. Bedenk eens hoeveel rekenkracht er vrijkomt door het in één stap genereren van afbeeldingen.
De mogelijkheid om in realtime te genereren betekent dat je uiteindelijk animaties of dynamische beelden kunt maken die in realtime bij de tekst van een verhaal passen.
Het is amper 4 maanden geleden sinds Stability AI zijn verbeterde verspreidingsmodel, SDXL 1.0, uitbracht, dat al erg goed was.
In blinde tests gaven gebruikers de voorkeur aan de beelden die SDXL Turbo in 4 stappen had gegenereerd boven de beelden die SDXL in 50 stappen had gegenereerd. Een verbetering van de efficiëntie met 12x in slechts vier maanden is verbazingwekkend.
Je vraagt je af hoe goed AI-beeldgeneratoren over een jaar zullen zijn.