Des chercheurs utilisent des données synthétiques pour entraîner un classificateur d'images d'IA

27 novembre 2023

L'entraînement d'un classificateur d'images ou d'un système de vision par ordinateur nécessite l'accès à un vaste ensemble de données d'images. Les chercheurs du MIT ont trouvé un moyen de réduire notre dépendance à l'égard des données réelles pour la classification des images.

Lorsque vous téléchargez l'image d'un chat et que vous demandez à ChatGPT d'expliquer ce que représente cette image, il est capable de le faire parce qu'il a été entraîné sur des milliers d'images de chats auxquelles étaient associées des étiquettes de texte.

Ces images d'entraînement devaient provenir de quelque part. L'un des ensembles de données utilisés pour former les Diffusion stableappelée LAION-5B, est une collection de milliards d'images extraites de l'internet et associées à des descriptions textuelles.

Mais que faire lorsque nous avons besoin de plus de données pour entraîner un modèle mais que nous avons épuisé l'ensemble des images réelles dont nous disposons ?

Une équipe de chercheurs du MIT a relevé le défi de la pénurie de données en créant son propre ensemble de données synthétiques.

Leur approche, appelé StableRepL'Institut d'études de marché de l'Union européenne utilise une stratégie appelée "apprentissage contrastif multipositif". Cela semble compliqué, mais le concept est en fait très simple.

Ils demandent au générateur d'images de Stable Diffusion de leur fournir une description textuelle, puis de générer plusieurs images. En supposant que Stable Diffusion ait fait du bon travail, ils disposent maintenant d'une collection d'images correspondant à l'invite initiale.

StableRep traite ces images comme des positifs les uns des autres et apprend les concepts de haut niveau qui expliquent pourquoi ces images sont de bonnes correspondances sémantiques avec l'invite initiale.

L'équipe a entraîné son modèle de classification d'images sur les images générées par l'IA et lui a donné un petit coup de pouce en termes de performances grâce à la supervision linguistique, pour finalement aboutir à StableRep+.

Comment StableRep+ se débrouillerait-il en matière de classification d'images, étant donné qu'il n'a jamais "vu" que des images générées par l'IA ?

Entraîné avec 20 millions d'images synthétiques, StableRep+ s'est avéré plus précis et plus efficace que les modèles CLIP entraînés avec 50 millions d'images réelles. Les chercheurs s'efforcent encore de comprendre la raison de cette performance supérieure.

Il reste encore quelques problèmes, mais l'utilisation de données d'entraînement synthétiques permet de résoudre un grand nombre de problèmes. questions relatives à la collecte de données comme les problèmes de coût, de droits d'auteur et de respect de la vie privée liés aux images réelles.

Les difficultés de cette approche sont notamment le coût de calcul et le temps nécessaire pour générer des millions d'images pour l'ensemble de données. De plus, StableRep repose toujours sur l'utilisation d'un générateur d'images qui a été formé à l'origine sur des images réelles pour produire ensuite les données synthétiques.

Tout biais dans l'invite textuelle ou l'étiquetage des données dans l'ensemble de données d'images réelles est également transféré au nouveau modèle formé sur des données synthétiques.

Malgré les difficultés, les résultats obtenus par StableRep sont prometteurs. L'augmentation de la diversité que les données synthétiques peuvent apporter pourrait réduire la dépendance des scientifiques des données à l'égard des données réelles, coûteuses et limitées, lors de l'entraînement de nouveaux modèles.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation