Meta sier at deres AI-bildegenerator er toppmoderne

18. juli 2023

Meta introduserte sin AI-bildegenerator kalt CM3leon og hevder at den leverer toppmoderne ytelse.

CM3leon, som uttales "kameleon", representerer et prestasjonsskifte i kappløpet mellom tekst- og bildegenerering. Mens verktøy som DALL-E og Stable Diffusion genererer imponerende bilder, er kunngjøringen Meta hevder at CM3leon har et forsprang på disse verktøyene på en rekke områder.

De fleste modeller som Stable Diffusion og DALL-E er diffusjonsmodeller. Disse modellene gir gode resultater, men deres trinnvise tilnærming til bildegenerering er treg og trenger mye prosessorkraft. Metas modell er en transformatormodell som de sier utkonkurrerer modeller som Googles Parti. 

Det er også en mye mer effektiv modell, som krever fem ganger mindre databehandling for opplæring og langt mindre opplæringsdatasett enn andre modeller.

CM3leon er en av de første modellene som kan generere både lange og korte bildetekster til bilder. Du kan også stille den spørsmål om bildet. Meta ga et eksempel på hvordan CM3leon reagerer på spørsmål om et bilde av en hund som bærer en pinne.

Bilde av hund og pinne generert av CM3leon
Bilde av hund og pinne generert av CM3leon. Kilde: CM3leon: Meta

Oppfordringsspørsmål: Hva er det hunden bærer på?

Modellgenerasjon: Stick

Oppfordring: Beskriv det gitte bildet i detalj.

Modellgenerasjon: På dette bildet er det en hund som holder en pinne i munnen. Det er gress på overflaten. I bakgrunnen av bildet er det trær.

CM3leon er i stand til å svare veldig godt på spesifikke detaljer eller nyanser i instruksjonene. Og eksempelbildene som Meta brukte i kunngjøringen, ser ut til å vise at den presterer bedre enn andre modeller med vanskelige ting som menneskehender og å legge til tekst i genererte bilder.

Bilder generert av Metas CM3leon
Bilder generert av Metas CM3leon. Kilde: Meta

De respektive instruksjonene for disse bildene var:

(1) En liten kaktus iført stråhatt og neonfargede solbriller i Sahara-ørkenen. (2) Nærbilde av en menneskehånd, håndmodell. Høy kvalitet. (3) En vaskebjørn-hovedperson i en anime som forbereder seg på en episk kamp med et samuraisverd. Kampstilling. Fantasy, illustrasjon. (4) Et stoppskilt i fantasystil med teksten "1991".

Andre interessante funksjoner som Meta fremhever, er tekstbasert og strukturstyrt bilderedigering. Med disse kan du bruke tekst til å be om endringer, for eksempel "endre himmelen til blå" eller plassere et element på en bestemt x-y-koordinat i bildet.

CM3leon ble trent opp på millioner av lisensierte bilder fra Shutterstock i stedet for den brede tilnærmingen andre modeller har brukt kritisert for. Som med andre modeller, sier Meta at CM3leon vil gjenspeile skjevhetene i opplæringsdataene. Så hvis du ber den om å generere et bilde av en bygningsarbeider, vil den sannsynligvis skape et bilde av en mann.  

Men Meta er i det minste åpen om dette og kommenterte spørsmålet om skjevheter ved å si: "Selv om bransjen fortsatt er i en tidlig fase når det gjelder å forstå og håndtere disse utfordringene, mener vi at åpenhet vil være nøkkelen til å få fart på utviklingen."

Ut fra eksemplene i utgivelsen og ytelseskravene ser det ut til at CM3leon er mer effektiv og mye bedre på romlig og kontekstuell forståelse av tekstmeldinger enn andre AI-bildegeneratorer. 

Meta har ikke sagt når de vil gi ut CM3leon, så vi må ta deres ord for hvor godt disse funksjonene fungerer for nå.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser