Meta introduceerde zijn AI-afbeeldingsgenerator genaamd CM3leon en beweert dat het state-of-the-art prestaties levert.
CM3leon, uitgesproken als "kameleon", vertegenwoordigt een prestatieverschuiving in de race om tekst-naar-afbeelding te genereren. Terwijl programma's als DALL-E en Stable Diffusion indrukwekkende afbeeldingen genereren, is in haar aankondiging Meta beweert dat CM3leon op een aantal gebieden een voorsprong heeft op deze tools.
De meeste modellen zoals Stable Diffusion en DALL-E zijn diffusiemodellen. Deze modellen leveren geweldige resultaten, maar hun stapsgewijze aanpak voor het genereren van afbeeldingen is traag en heeft veel rekenkracht nodig. Het model van Meta is een transformatormodel dat naar eigen zeggen beter presteert dan modellen zoals Google's Parti.
Het is ook een veel efficiënter model, dat 5 keer minder computerverwerking nodig heeft voor training en veel kleinere sets met trainingsgegevens dan andere modellen.
CM3leon is een van de eerste modellen die zowel lange als korte bijschriften voor afbeeldingen kan genereren. Je kunt het ook vragen stellen over de afbeelding. Meta gaf een voorbeeld van hoe CM3leon reageert op vragen over een afbeelding van een hond die een stok draagt.
Prompt Vraag: Wat draagt de hond?
Modelgeneratie: Stick
Prompt: Beschrijf de gegeven afbeelding zeer gedetailleerd.
Modelgeneratie: In deze afbeelding is er een hond die een stok in zijn bek houdt. Er ligt gras op het oppervlak. Op de achtergrond van de afbeelding staan bomen.
CM3leon kan heel goed reageren op specifieke details of nuances in aanwijzingen. En de voorbeeldafbeeldingen die Meta gebruikte in hun aankondiging lijken aan te tonen dat het beter presteert dan andere modellen met lastige dingen zoals mensenhanden en het toevoegen van tekst aan gegenereerde afbeeldingen.
De respectievelijke aanwijzingen voor deze afbeeldingen waren:
(1) Een kleine cactus met een strooien hoed en een neon zonnebril in de Sahara woestijn. (2) Een close-up foto van een menselijke hand, handmodel. Hoge kwaliteit. (3) Een hoofdpersoon van een wasbeer in een anime bereidt zich voor op een episch gevecht met een samoeraizwaard. Strijdhouding. Fantasie, Illustratie. (4) Een stopbord in een Fantasy stijl met de tekst "1991."
Andere interessante functies die Meta heeft uitgelicht zijn tekstgebaseerde en structuurgestuurde beeldbewerking. Hiermee kun je tekst gebruiken om bewerkingen aan te vragen zoals "verander de lucht in blauw" of om een item op een specifieke x-y-coördinaat in de afbeelding te plaatsen.
CM3leon is getraind op miljoenen gelicentieerde afbeeldingen van Shutterstock in plaats van de brede aanpak die andere modellen hebben gebruikt. bekritiseerd voor. Net als bij andere modellen, zegt Meta dat CM3leon de vooroordelen in de trainingsgegevens zal weerspiegelen. Dus als je het vraagt om een afbeelding van een bouwvakker te genereren, zal het waarschijnlijk een afbeelding van een man genereren.
Maar Meta is hier tenminste open over en gaf commentaar op de kwestie van vooringenomenheid door te zeggen: "Hoewel de industrie zich nog in de beginfase bevindt van het begrijpen en aanpakken van deze uitdagingen, geloven we dat transparantie de sleutel zal zijn tot het versnellen van de vooruitgang."
Uit de voorbeelden in hun uitgave en de prestatieclaims blijkt dat CM3leon efficiënter is en veel beter is in het ruimtelijk en contextueel begrijpen van tekstaanwijzingen dan andere AI-afbeeldingsgeneratoren.
Meta heeft nog niet gezegd wanneer het CM3leon zal uitbrengen, dus we zullen ze voorlopig op hun woord moeten geloven voor hoe goed deze functies werken.