Компания Stability AI только что объявила о выпуске новейшего генератора текста в изображение в реальном времени под названием SDXL Turbo.
Когда вы используете генераторы AI-текста в изображение, обычно между запросом и картинкой проходит не менее нескольких секунд. В SDXL Turbo изображение генерируется за миллисекунды.
Еще более впечатляющим является то, что при редактировании подсказки изображение меняется в режиме реального времени так же быстро, как вы набираете текст.
Демонстрационный ролик Stability AI позволяет понять, насколько это революционное решение.
Адверсарная диффузия Дистилляция
Секретным соусом для этого является новая технология дистилляции под названием Адверсарная диффузия Дистилляция (ADD).
Стандартные диффузионные модели (DM) лежат в основе большинства генераторов изображений ИИ и обеспечивают высокое качество изображений. DM начинается с зашумленного изображения и постепенно удаляет шум, пока оно не станет похожим на изображение, связанное с подсказкой.
Процесс вывода с помощью DM - это медленный, итеративный процесс, требующий множества шагов и большого количества компьютерной обработки.
Другой альтернативой генерации изображений является использование генеративных адверсарных сетей (GAN). GAN играет в состязание между нейронной сетью-генератором и нейронной сетью-дискриминатором. GAN создают изображение за один шаг, поэтому они очень быстрые.
Проблема с GAN заключается в том, что они плохо масштабируются и иногда страдают от коллапса режима. Это происходит, когда генератор застревает в локальном оптимуме и выдает лишь ограниченное количество изображений.
ADD - это своего рода гибридная модель между двумя подходами. Она сочетает в себе масштабируемость и качество DM со скоростью GAN.
И это действительно быстро. При запуске SDXL Turbo на Nvidia A100 он генерирует изображение 512×512 за 207 мс.
Вес модели и код доступны для некоммерческого использования на Hugging Face. Если вы хотите попробовать бета-версию демо-версии, вы можете проверить ее на Clipdrop. Демонстрация дает представление о скорости, но качество изображений снижается.
SDXL Turbo также можно настроить на использование 2 или 4 шагов для создания изображения с еще более высоким качеством.
Большие последствия
Первой вашей реакцией на это может быть облегчение от того, что вам не придется так долго ждать, пока ваше изображение будет сгенерировано, и это большой плюс.
Но SDXL Turbo позволяет добиться гораздо большего. Благодаря одноэтапной генерации изображений только представьте, сколько вычислительных мощностей будет высвобождено.
Возможность генерации в реальном времени означает, что вы сможете создавать анимацию или динамические визуальные эффекты, соответствующие тексту истории в режиме реального времени.
Прошло всего 4 месяца с тех пор, как Stability AI выпустила свою улучшенную модель диффузии SDXL 1.0, которая уже была действительно хороша.
В слепых тестах пользователи предпочитали изображения, созданные SDXL Turbo за 4 шага, изображениям, созданным SDXL за 50 шагов. 12-кратное повышение эффективности всего за четыре месяца - это потрясающе.
Это заставляет задуматься о том, насколько хороши будут генераторы изображений с искусственным интеллектом через год.