Meta introducerede sin AI-billedgenerator kaldet CM3leon og hævder, at den leverer state-of-the-art performance.
CM3leon, der udtales "kamæleon", repræsenterer et skift i ydeevne i kapløbet om at generere tekst til billeder. Mens værktøjer som DALL-E og Stable Diffusion genererer imponerende billeder, er der i dens bekendtgørelse Meta hævder, at CM3leon har en fordel i forhold til disse værktøjer på en række områder.
De fleste modeller som Stable Diffusion og DALL-E er diffusionsmodeller. Disse modeller giver gode resultater, men deres trinvise tilgang til billedgenerering er langsom og kræver en masse processorkraft. Metas model er en transformatormodel, som de siger overgår modeller som Googles Parti.
Det er også en meget mere effektiv model, der kræver 5 gange mindre computerbehandling til træning og langt mindre træningsdatasæt end andre modeller.
CM3leon er en af de første modeller, der kan generere både lange og korte billedtekster til billeder. Man kan også stille den spørgsmål om billedet. Meta gav et eksempel på, hvordan CM3leon reagerer på spørgsmål om et billede af en hund, der bærer en pind.
Spørg ind til det: Hvad bærer hunden på?
Modelgeneration: Pind
Spørg: Beskriv det givne billede i meget fine detaljer.
Modelgeneration: På dette billede er der en hund, som holder en pind i munden. Der er græs på overfladen. I baggrunden af billedet er der træer.
CM3leon er i stand til at reagere meget godt på specifikke detaljer eller nuancer i beskeder. Og de eksempler på billeder, som Meta brugte i deres meddelelse, ser ud til at vise, at den klarer sig bedre end andre modeller med vanskelige ting som menneskehænder og tilføjelse af tekst til genererede billeder.
De respektive opfordringer til disse billeder var:
(1) En lille kaktus iført stråhat og neonfarvede solbriller i Saharas ørken. (2) Et nærbillede af en menneskehånd, håndmodel. Høj kvalitet. (3) En vaskebjørn som hovedperson i en anime forbereder sig på et episk slag med et samuraisværd. Kampstilling. Fantasy, Illustration. (4) Et stopskilt i fantasy-stil med teksten "1991".
Andre interessante funktioner, som Meta fremhævede, er tekstbaseret og strukturstyret billedredigering. Disse giver dig mulighed for at bruge tekst til at anmode om ændringer som "skift himlen til blå" eller til at placere et element på en bestemt x-y-koordinat i billedet.
CM3leon blev trænet på millioner af licenserede billeder fra Shutterstock i stedet for den brede tilgang, som andre modeller har brugt. kritiseret for. Som med andre modeller siger Meta, at CM3leon vil afspejle skævhederne i træningsdataene. Så hvis du beder den om at generere et billede af en bygningsarbejder, vil den sandsynligvis skabe et billede af en mand.
Men Meta er i det mindste åben omkring dette og kommenterede spørgsmålet om bias ved at sige: "Mens branchen stadig er i de tidlige stadier af at forstå og tackle disse udfordringer, mener vi, at gennemsigtighed vil være nøglen til at fremskynde fremskridt."
Ud fra eksemplerne i deres udgivelse og kravene til ydeevne ser det ud til, at CM3leon er mere effektiv og meget bedre til rumlig og kontekstuel forståelse af tekstprompter end andre AI-billedgeneratorer.
Meta har ikke sagt, hvornår de vil frigive CM3leon, så vi må tage deres ord for, hvor godt disse funktioner fungerer indtil videre.