Качество генераторов изображений ИИ страдает при обучении на данных, созданных ИИ

18 июля 2023 года

Генератор изображений AI

Новое исследование показывает, что обучение генераторов изображений, созданных искусственным интеллектом, в конечном итоге приводит к значительному снижению качества результатов. 

Баранюк и его команда продемонстрировали, как этот проблемный цикл обучения ИИ влияет на генеративные ИИ, включая StyleGAN и диффузионные модели. Именно эти модели используются в таких генераторах изображений ИИ, как Stable Diffusion, DALL-E и MidJourney. 

В их экспериментКоманда обучала ИИ как на сгенерированных ИИ, так и на реальных изображениях. 70 000 реальных человеческих лиц взяты из Flickr.

Когда каждый ИИ обучался на собственных изображениях, созданных ИИ, результаты работы генератора изображений StyleGAN стали отображать искаженные и волнистые визуальные узоры, а результаты работы диффузионного генератора изображений стали более размытыми.

В обоих случаях обучение ИИ на сгенерированных им изображениях приводило к потере качества. 

Один из исследование Авторы, Ричард Баранюк из Университета Райса в Техасе, предупреждает: "Использование синтетических данных, вольно или невольно, будет скользкой дорожкой".

Генератор изображений AI
Чем больше моделей ИИ обучается на синтетических изображениях, тем более размытыми становятся их результаты. Источник: Университет Райса.

Хотя снижение качества изображений удалось снизить за счет выбора для обучения более качественных изображений, сгенерированных искусственным интеллектом, это привело к потере разнообразия изображений. 

Исследователи также попробовали включить фиксированный набор реальных изображений в обучающие наборы, которые в основном включали изображения, сгенерированные ИИ, - этот метод иногда используется для дополнения небольших обучающих наборов. 

Однако это лишь отсрочило падение качества изображений - похоже, что чем больше данных, созданных ИИ, попадает в обучающие наборы данных, тем хуже становится результат. Вопрос только в том, когда это произойдет.

Разумные результаты были достигнуты, когда каждый ИИ обучался на смеси изображений, сгенерированных ИИ, и постоянно меняющегося набора подлинных изображений. Это позволило сохранить качество и разнообразие изображений.

Трудно найти баланс между количеством и качеством - синтетические изображения потенциально неограниченны по сравнению с реальными, но их использование сопряжено с определенными затратами. 

У искусственного интеллекта заканчиваются данные

ИИ жаждет данных, но подлинные, высококачественные данные - это ограниченный ресурс. 

Результаты этого исследования перекликаются с аналогичные исследования для создания текстовВ случае обучения моделей на сгенерированном ИИ тексте результаты ИИ, как правило, страдают. 

Исследователи подчеркивают, что небольшие организации с ограниченными возможностями по сбору достоверных данных сталкиваются с наибольшими трудностями при фильтрации изображений, созданных ИИ, из своих наборов данных. 

Кроме того, проблема усугубляется тем, что интернет наводнен контентом, созданным ИИ, что делает определение типа данных, на которых обучаются модели, невероятно сложным. 

Сина Алемохаммад из Университета Райса предполагает, что разработка водяных знаков для идентификации изображений, созданных ИИ, может помочь, но предупреждает, что упущенные из виду скрытые водяные знаки могут ухудшить качество изображений, созданных ИИ.

Алемохаммад заключает: "Вы будете прокляты, если сделаете это, и прокляты, если не сделаете. Но определенно лучше нанести водяной знак на изображение, чем не нанести".

Долгосрочные последствия потребления искусственным интеллектом своей продукции являются предметом жарких споров, но уже сейчас разработчикам ИИ необходимо найти решения для обеспечения качества своих моделей.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения