Компания Meta представила свой генератор изображений с искусственным интеллектом под названием CM3leon и утверждает, что он обеспечивает самую современную производительность.
CM3leon, произносится как "хамелеон", представляет собой сдвиг в производительности в гонке генерации текста в изображение. В то время как такие инструменты, как DALL-E и Stable Diffusion, генерируют впечатляющие изображения, в его объявление Meta утверждает, что CM3leon превосходит эти инструменты в ряде областей.
Большинство моделей, таких как Stable Diffusion и DALL-E, являются диффузионными. Эти модели дают отличные результаты, но их пошаговый подход к созданию изображений медленный и требует больших вычислительных мощностей. Модель Meta - это трансформационная модель, которая, по ее словам, превосходит такие модели, как Parti от Google.
Кроме того, это гораздо более эффективная модель, требующая в 5 раз меньше компьютерной обработки для обучения и гораздо меньшие наборы обучающих данных, чем другие модели.
CM3leon - одна из первых моделей, которая может генерировать как длинные, так и короткие подписи к изображениям. Вы также можете задавать ему вопросы об изображении. Мета привела пример того, как CM3leon отвечает на вопросы о картинке с изображением собаки, несущей палку.
Вопрос на засыпку: Что несет собака?
Модель поколения: Палка
Примета: Опишите данное изображение в мельчайших деталях.
Модель поколения: На этом изображении собака держит в пасти палку. На поверхности - трава. На заднем плане изображения - деревья.
CM3leon очень хорошо реагирует на конкретные детали и нюансы в подсказках. А примеры изображений, которые Meta использовала в своем анонсе, говорят о том, что он лучше других моделей справляется с такими сложными задачами, как человеческие руки и добавление текста к сгенерированным изображениям.
Соответствующими подсказками для этих изображений были:
(1) Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара. (2) Фотография человеческой руки крупным планом, модель руки. Высокое качество. (3) Енот, главный герой аниме, готовится к эпической битве с самурайским мечом. Боевая стойка. Фэнтези, иллюстрация. (4) Знак остановки в стиле фэнтези с надписью "1991".
Среди других интересных функций, о которых рассказала Мета, - редактирование изображений на основе текста и структуры. Они позволяют использовать текст для запроса изменений, например "изменить небо на голубое" или поместить элемент в определенную координату x-y на изображении.
CM3leon был обучен на миллионах лицензионных изображений с Shutterstock, а не на широком подходе, который применяли другие модели. критикуемый за. Как и другие модели, CM3leon, по словам Меты, будет отражать предвзятость обучающих данных. Так, если вы попросите его создать изображение строителя, он, скорее всего, создаст изображение мужчины.
Но Meta, по крайней мере, открыто заявляет об этом и комментирует проблему предвзятости, говоря: "Хотя индустрия все еще находится на ранних стадиях понимания и решения этих проблем, мы считаем, что прозрачность будет ключом к ускорению прогресса".
Судя по примерам в их релизе и заявлениям о производительности, кажется, что CM3leon более эффективен и гораздо лучше справляется с пространственным и контекстуальным пониманием текстовых подсказок, чем другие генераторы изображений с искусственным интеллектом.
Meta не сообщила, когда будет выпущен CM3leon, так что пока нам придется поверить им на слово, насколько хорошо работают эти функции.