Meta ha presentato il suo generatore di immagini AI chiamato CM3leon e sostiene che offre prestazioni all'avanguardia.
CM3leon, pronunciato "chameleon", rappresenta un cambiamento di prestazioni nella corsa alla generazione di testo-immagine. Mentre strumenti come DALL-E e Stable Diffusion generano immagini di grande effetto, in il suo annuncio Meta sostiene che CM3leon ha un vantaggio su questi strumenti in una serie di aree.
La maggior parte dei modelli, come Stable Diffusion e DALL-E, sono modelli di diffusione. Questi modelli forniscono ottimi risultati, ma il loro approccio graduale alla generazione delle immagini è lento e richiede molta potenza di elaborazione. Il modello di Meta è un modello di trasformazione che, a suo dire, supera modelli come Parti di Google.
È anche un modello molto più efficiente, che richiede un'elaborazione al computer 5 volte inferiore per l'addestramento e set di dati di addestramento molto più piccoli rispetto ad altri modelli.
CM3leon è uno dei primi modelli in grado di generare didascalie lunghe e brevi per le immagini. È anche possibile porgli domande sull'immagine. Meta ha fornito un esempio di come CM3leon risponde alle domande su un'immagine di un cane che trasporta un bastone.
Domanda a risposta immediata: Cosa trasporta il cane?
Modello di generazione: Bastone
Prompt: Descrivete l'immagine data in modo molto dettagliato.
Modello di generazione: In questa immagine c'è un cane che tiene in bocca un bastone. Sulla superficie c'è dell'erba. Sullo sfondo dell'immagine ci sono degli alberi.
CM3leon è in grado di rispondere molto bene a dettagli o sfumature specifiche nelle richieste. E le immagini di esempio utilizzate da Meta nel suo annuncio sembrano dimostrare che si comporta meglio di altri modelli con cose difficili come le mani umane e l'aggiunta di testo alle immagini generate.
Le rispettive richieste per queste immagini erano:
(1) Un piccolo cactus con cappello di paglia e occhiali da sole al neon nel deserto del Sahara. (2) Foto ravvicinata di una mano umana, modello di mano. Alta qualità. (3) Un procione protagonista di un anime che si prepara a un'epica battaglia con una spada da samurai. Posizione di battaglia. Fantasy, illustrazione. (4) Un segnale di stop in stile fantasy con il testo "1991".
Altre caratteristiche interessanti evidenziate da Meta sono la modifica delle immagini basata sul testo e quella guidata dalla struttura. Queste consentono di utilizzare il testo per richiedere modifiche come "cambia il cielo in blu" o per posizionare un elemento in una specifica coordinata x-y dell'immagine.
CM3leon è stato addestrato su milioni di immagini con licenza di Shutterstock, piuttosto che sull'approccio ampio e concentrato di altri modelli. criticato per. Come per altri modelli, Meta afferma che CM3leon rifletterà le distorsioni dei dati di addestramento. Quindi, se gli si chiede di generare l'immagine di un operaio edile, probabilmente creerà l'immagine di un uomo.
Meta, però, almeno su questo punto è stata chiara e ha commentato la questione dei pregiudizi dicendo: "Sebbene l'industria sia ancora nelle prime fasi di comprensione e di risoluzione di queste sfide, crediamo che la trasparenza sarà la chiave per accelerare i progressi".
Dagli esempi contenuti nel loro comunicato e dalle prestazioni dichiarate, sembra che CM3leon sia più efficiente e molto più bravo nella comprensione spaziale e contestuale delle richieste di testo rispetto ad altri generatori di immagini AI.
Meta non ha detto quando rilascerà CM3leon, quindi per ora dobbiamo fidarci della loro parola sul funzionamento di queste funzioni.