Stability AI presenta il suo generatore di testo-immagine in tempo reale | DailyAI

Stability AI ha appena annunciato il rilascio del suo generatore di testo-immagine in tempo reale all'avanguardia, chiamato SDXL Turbo.

Quando si utilizzano generatori di testo-immagine AI, di solito c'è un tempo di attesa di almeno qualche secondo tra la richiesta e l'immagine. Con SDXL Turbo l'immagine viene generata in pochi millisecondi.

Ciò che rende il tutto ancora più impressionante è che, mentre si modifica il messaggio, l'immagine cambia in tempo reale con la stessa velocità con cui si digita.

Il video dimostrativo di Stability AI dà un'idea di quanto sia innovativo.

Diffusione avversaria Distillazione

La salsa segreta che sta alla base di questo risultato è una nuova tecnica di distillazione chiamata Diffusione avversaria Distillazione (ADD).

I modelli di diffusione standard (DM) sono alla base della maggior parte dei generatori di immagini AI e forniscono immagini di alta qualità. Un DM inizia con un'immagine rumorosa e rimuove gradualmente il rumore fino a farla assomigliare a un'immagine correlata alla richiesta.

Il processo di inferenza con un DM è un processo lento e iterativo che richiede molti passaggi e un'abbondante elaborazione al computer.

L'altra alternativa per la generazione di immagini è l'uso di reti generative avversarie (GAN). Una GAN gioca una partita avversa tra un generatore e una rete neurale discriminatrice. Le GAN producono un'immagine in un unico passaggio, quindi sono molto veloci.

Il problema delle GAN è che non scalano bene e a volte possono soffrire di mode collapse. Ciò accade quando il generatore si blocca in un optimum locale e produce solo una varietà limitata di immagini.

ADD è una sorta di modello ibrido tra i due approcci. Combina la scalabilità e la qualità di un DM con la velocità di un GAN.

Ed è davvero veloce. Quando si esegue SDXL Turbo su un Nvidia A100 si genera un'immagine 512×512 in 207ms.

I pesi del modello e il codice sono disponibili per uso non commerciale su Hugging Face. Se volete provare la demo beta, potete consultarla su Clipdrop. La demo dà un'idea della velocità, ma la qualità delle immagini è ridotta.

SDXL Turbo può anche essere impostato per utilizzare 2 o 4 passaggi per generare un'immagine con una qualità ancora migliore.

Immagini a passo singolo 512×512 generate da SDXL Turbo. Fonte: Stability AI

Grandi implicazioni

La prima reazione potrebbe essere il sollievo di non dover aspettare così a lungo per la generazione dell'immagine, e questo è un grande vantaggio.

Ma SDXL Turbo permette di ottenere molto di più. Con il suo approccio alla generazione di immagini in un unico passaggio, pensate solo a quanta potenza di calcolo verrà liberata.

La capacità di generare in tempo reale significa che si potrebbero creare animazioni o immagini dinamiche da abbinare al testo di una storia in tempo reale.

Sono passati appena 4 mesi da quando Stability AI ha rilasciato il suo modello di diffusione migliorato, SDXL 1.0, che era già molto buono.

Nei test alla cieca, gli utenti hanno preferito le immagini generate da SDXL Turbo in 4 passaggi a quelle generate da SDXL in 50 passaggi. Un miglioramento dell'efficienza di 12 volte in soli quattro mesi è sorprendente.

Viene da chiedersi quanto saranno bravi i generatori di immagini AI tra un anno.

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

ARTICOLI CORRELATI

Mag 02Industria

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Mag 01Industria

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

30 aprileIndustria

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

30 aprileIndustria

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter