Stability AI hat gerade die Veröffentlichung seines hochmodernen Echtzeit-Text-zu-Bild-Generators SDXL Turbo angekündigt.
Bei der Verwendung von AI-Text-Bild-Generatoren vergehen in der Regel mindestens ein paar Sekunden zwischen Eingabeaufforderung und Bild. Mit SDXL Turbo wird das Bild in Millisekunden erzeugt.
Noch beeindruckender ist, dass sich das Bild in Echtzeit ändert, während Sie Ihre Eingabeaufforderung bearbeiten, so schnell wie Sie tippen können.
Das Demovideo von Stability AI gibt Ihnen ein gutes Gefühl dafür, wie bahnbrechend dies ist.
Adversarial Diffusion Destillation
Die geheime Sauce dahinter ist eine neue Destillationstechnik namens Adversarial Diffusion Destillation (ADD).
Standard-Diffusionsmodelle (DM) stecken hinter den meisten KI-Bildgeneratoren und liefern qualitativ hochwertige Bilder. Ein DM beginnt mit einem verrauschten Bild und entfernt nach und nach das Rauschen, bis es einem Bild ähnelt, das mit der Aufforderung in Verbindung steht.
Der Inferenzprozess mit einem DM ist ein langsamer, iterativer Prozess, der viele Schritte und eine Menge Computerarbeit erfordert.
Die andere Alternative zur Bilderzeugung ist die Verwendung von Generative Adversarial Networks (GAN). Ein GAN spielt ein kontradiktorisches Spiel zwischen einem Generator und einem neuronalen Diskriminatornetz. GANs erzeugen ein Bild in einem einzigen Schritt und sind daher sehr schnell.
Das Problem bei GANs ist, dass sie nicht gut skalierbar sind und dass sie manchmal an einem Modus-Kollaps leiden können. Dies geschieht, wenn der Generator in einem lokalen Optimum stecken bleibt und nur eine begrenzte Vielfalt von Bildern erzeugt.
ADD ist eine Art Hybridmodell zwischen diesen beiden Ansätzen. Es kombiniert die Skalierbarkeit und Qualität eines DM mit der Geschwindigkeit eines GAN.
Und es ist wirklich schnell. Wenn SDXL Turbo auf einer Nvidia A100 läuft, erzeugt es ein 512×512 Bild in 207 ms.
Die Modellgewichte und der Code sind für die nicht-kommerzielle Nutzung auf Hugging Face verfügbar. Wenn Sie die Beta-Demo ausprobieren möchten, können Sie sie unter Clipdrop. Die Demo vermittelt Ihnen einen Eindruck von der Geschwindigkeit, aber die Qualität der Bilder ist reduziert.
SDXL Turbo kann auch auf 2 oder 4 Schritte eingestellt werden, um ein Bild mit noch besserer Qualität zu erzeugen.
Große Auswirkungen
Ihre erste Reaktion darauf ist vielleicht Erleichterung darüber, dass Sie nicht mehr so lange auf die Erstellung Ihres Bildes warten müssen, und das ist ein großer Vorteil.
Aber SDXL Turbo wird noch viel mehr leisten. Stellen Sie sich vor, wie viel Rechenleistung durch die Bilderzeugung in einem einzigen Schritt freigesetzt werden kann.
Die Möglichkeit der Echtzeitgenerierung bedeutet, dass Sie in Zukunft Animationen oder dynamisches Bildmaterial erstellen können, das in Echtzeit auf den Text einer Geschichte abgestimmt ist.
Es ist kaum 4 Monate her, dass Stability AI sein verbessertes Diffusionsmodell, SDXL 1.0, veröffentlicht hat, das bereits sehr gut war.
In Blindtests zogen die Benutzer die mit SDXL Turbo in 4 Schritten erzeugten Bilder denen vor, die mit SDXL in 50 Schritten erzeugt wurden. Eine 12-fache Effizienzsteigerung in nur vier Monaten ist erstaunlich.
Da fragt man sich, wie gut KI-Bildgeneratoren in einem Jahr sein werden.