Для обучения классификатора изображений ИИ или системы компьютерного зрения требуется доступ к большому набору изображений. Исследователи Массачусетского технологического института нашли способ уменьшить зависимость от реальных данных для классификации изображений.
Когда вы загружаете изображение кошки и просите ChatGPT объяснить, что это за изображение, он способен это сделать, потому что был обучен на тысячах изображений кошек, к которым были прикреплены текстовые метки.
Эти учебные изображения должны были откуда-то взяться. Один из наборов данных, использованных для обучения Стабильная диффузияLAION-5B - это коллекция из миллиардов изображений, взятых из Интернета и снабженных текстовыми описаниями.
Но что делать, если нам нужно больше данных для обучения модели, а набор реальных изображений исчерпан?
Группа исследователей из Массачусетского технологического института решила эту проблему нехватки данных, создав собственный синтетический набор данных.
Их подход, под названием StableRepиспользует стратегию под названием "мультипозитивное контрастное обучение". Звучит сложно, но на самом деле концепция довольно проста.
Они задают генератору изображений Stable Diffusion текстовое описание, а затем заставляют его сгенерировать несколько изображений. Если предположить, что Stable Diffusion хорошо справился с задачей, то теперь у них есть коллекция изображений, соответствующих первоначальному запросу.
StableRep рассматривает эти изображения как положительные характеристики друг друга и изучает высокоуровневые концепции, объясняющие, почему эти изображения являются хорошими семантическими соответствиями для исходного запроса.
Команда обучила свою модель классификатора изображений на сгенерированных ИИ картинках и немного увеличила ее производительность с помощью языкового надзора, чтобы в итоге получить StableRep+.
Как StableRep+ справится с классификацией изображений, ведь он видит только изображения, созданные ИИ?
При обучении на 20 миллионах синтетических изображений StableRep+ оказалась точнее и эффективнее, чем модели CLIP, обученные на 50 миллионах реальных изображений. Исследователи все еще работают над тем, чтобы понять причину такой высокой производительности.
Есть еще несколько проблем, но использование синтетических данных для обучения решает многие из них. вопросы сбора данных например, стоимость, авторские права и проблемы конфиденциальности, связанные с реальными изображениями.
Проблемы этого подхода заключаются в вычислительных затратах и времени на создание миллионов изображений для набора данных. Кроме того, StableRep все еще полагается на использование генератора изображений, который изначально обучался на реальных изображениях, чтобы затем создать синтетические данные.
Любая погрешность в текстовой подсказке или маркировке данных в реальном наборе данных изображений переносится и на новую модель, обученную на синтетических данных.
Несмотря на трудности, результаты, достигнутые StableRep, многообещающи. Увеличение разнообразия синтетических данных может снизить зависимость специалистов по обработке данных от дорогостоящих и ограниченных реальных данных при обучении новых моделей.