Stability AI ha appena annunciato il rilascio del suo generatore di testo-immagine in tempo reale all'avanguardia, chiamato SDXL Turbo.
Quando si utilizzano generatori di testo-immagine AI, di solito c'è un tempo di attesa di almeno qualche secondo tra la richiesta e l'immagine. Con SDXL Turbo l'immagine viene generata in pochi millisecondi.
Ciò che rende il tutto ancora più impressionante è che, mentre si modifica il messaggio, l'immagine cambia in tempo reale con la stessa velocità con cui si digita.
Il video dimostrativo di Stability AI dà un'idea di quanto sia innovativo.
Diffusione avversaria Distillazione
La salsa segreta che sta alla base di questo risultato è una nuova tecnica di distillazione chiamata Diffusione avversaria Distillazione (ADD).
I modelli di diffusione standard (DM) sono alla base della maggior parte dei generatori di immagini AI e forniscono immagini di alta qualità. Un DM inizia con un'immagine rumorosa e rimuove gradualmente il rumore fino a farla assomigliare a un'immagine correlata alla richiesta.
Il processo di inferenza con un DM è un processo lento e iterativo che richiede molti passaggi e un'abbondante elaborazione al computer.
L'altra alternativa per la generazione di immagini è l'uso di reti generative avversarie (GAN). Una GAN gioca una partita avversa tra un generatore e una rete neurale discriminatrice. Le GAN producono un'immagine in un unico passaggio, quindi sono molto veloci.
Il problema delle GAN è che non scalano bene e a volte possono soffrire di mode collapse. Ciò accade quando il generatore si blocca in un optimum locale e produce solo una varietà limitata di immagini.
ADD è una sorta di modello ibrido tra i due approcci. Combina la scalabilità e la qualità di un DM con la velocità di un GAN.
Ed è davvero veloce. Quando si esegue SDXL Turbo su un Nvidia A100 si genera un'immagine 512×512 in 207ms.
I pesi del modello e il codice sono disponibili per uso non commerciale su Hugging Face. Se volete provare la demo beta, potete consultarla su Clipdrop. La demo dà un'idea della velocità, ma la qualità delle immagini è ridotta.
SDXL Turbo può anche essere impostato per utilizzare 2 o 4 passaggi per generare un'immagine con una qualità ancora migliore.
Grandi implicazioni
La prima reazione potrebbe essere il sollievo di non dover aspettare così a lungo per la generazione dell'immagine, e questo è un grande vantaggio.
Ma SDXL Turbo permette di ottenere molto di più. Con il suo approccio alla generazione di immagini in un unico passaggio, pensate solo a quanta potenza di calcolo verrà liberata.
La capacità di generare in tempo reale significa che si potrebbero creare animazioni o immagini dinamiche da abbinare al testo di una storia in tempo reale.
Sono passati appena 4 mesi da quando Stability AI ha rilasciato il suo modello di diffusione migliorato, SDXL 1.0, che era già molto buono.
Nei test alla cieca, gli utenti hanno preferito le immagini generate da SDXL Turbo in 4 passaggi a quelle generate da SDXL in 50 passaggi. Un miglioramento dell'efficienza di 12 volte in soli quattro mesi è sorprendente.
Viene da chiedersi quanto saranno bravi i generatori di immagini AI tra un anno.