Meta introducerade sin AI-bildgenerator som heter CM3leon och hävdar att den levererar toppmodern prestanda.
CM3leon, som uttalas "kameleont", innebär en prestandaförändring i kapplöpningen mellan text- och bildgenerering. Verktyg som DALL-E och Stable Diffusion genererar imponerande bilder, men i dess tillkännagivande Meta hävdar att CM3leon har kanten på dessa verktyg inom ett antal områden.
De flesta modeller som Stable Diffusion och DALL-E är diffusionsmodeller. Dessa modeller ger bra resultat men deras steg-för-steg-strategi för bildgenerering är långsam och behöver mycket processorkraft. Metas modell är en transformatormodell som den säger överträffar modeller som Googles Parti.
Det är också en mycket mer effektiv modell, som kräver 5 gånger mindre datorbearbetning för träning och mycket mindre träningsdataset än andra modeller.
CM3leon är en av de första modellerna som kan generera både långa och korta bildtexter för bilder. Du kan också ställa frågor om bilden. Meta gav ett exempel på hur CM3leon svarar på frågor om en bild av en hund som bär en pinne.
Prompt fråga: Vad bär hunden på?
Modellgeneration: Stick
Frågeställning: Beskriv den givna bilden mycket detaljerat.
Modellgeneration: På bilden syns en hund som håller en pinne i munnen. Det finns gräs på ytan. I bakgrunden av bilden finns det träd.
CM3leon kan svara mycket bra på specifika detaljer eller nyanser i uppmaningar. Och de exempelbilder som Meta använde i sitt tillkännagivande verkar visa att det fungerar bättre än andra modeller med knepiga saker som mänskliga händer och att lägga till text till genererade bilder.
De respektive uppmaningarna för dessa bilder var:
(1) En liten kaktus med stråhatt och neonfärgade solglasögon i Saharaöknen. (2) En närbild av en mänsklig hand, handmodell. Hög kvalitet. (3) En tvättbjörn som huvudperson i en anime förbereder sig för en episk strid med ett samurajsvärd. Stridsposition. Fantasi, Illustration. (4) En stoppskylt i Fantasy-stil med texten "1991".
Andra intressanta funktioner som Meta lyfte fram är textbaserad och strukturstyrd bildredigering. Dessa låter dig använda text för att begära redigeringar som "ändra himlen till blå" eller för att placera ett objekt vid en specifik x-y-koordinat i bilden.
CM3leon tränades på miljontals licensierade bilder från Shutterstock i stället för att använda den breda metod som andra modeller har använt sig av kritiserad för. Som med andra modeller säger Meta att CM3leon kommer att återspegla förspänningarna i träningsdata. Så om du ber den att generera en bild av en byggnadsarbetare kommer den förmodligen att skapa en bild av en man.
Men Meta är åtminstone på förhand om detta och kommenterade frågan om partiskhet genom att säga "Medan branschen fortfarande befinner sig i sina tidiga stadier för att förstå och ta itu med dessa utmaningar, tror vi att öppenhet kommer att vara nyckeln till att påskynda framstegen."
Av exemplen i deras release och prestandapåståendena verkar det som om CM3leon är effektivare och mycket bättre på rumslig och kontextuell förståelse av textmeddelanden än andra AI-bildgeneratorer.
Meta har inte sagt när det kommer att släppa CM3leon så vi måste ta deras ord för hur bra dessa funktioner fungerar för nu.