Un outil d'empoisonnement des données permet aux artistes de punir les "scrapers" d'IA

24 octobre 2023

Prix de l'art de l'IA
Théâtre D'opéra Spatial, créé avec MidJourney, a remporté un prix artistique en 2022. L'artiste Jason Matthew Allen a déclaré y avoir consacré 80 heures, mais certains en doutent. Source : Wikipédia : Wikipédia.

Des chercheurs de l'université de Chicago ont mis au point un nouvel outil pour "empoisonner" les modèles d'IA lorsque les entreprises d'IA intègrent des images dans leurs ensembles de données sans leur consentement.

Des entreprises comme OpenAI et Meta ont été critiquées et poursuivies en justice pour leur utilisation massive de contenus en ligne afin d'entraîner leurs modèles. Pour que des générateurs texte-image comme DALL-E ou Midjourney soient efficaces, ils doivent être entraînés sur de grandes quantités de données visuelles.

Un certain nombre de artistes se sont plaints du fait que ces générateurs d'images sont désormais en mesure de produire des images dans leur style après avoir récupéré leurs œuvres sans leur consentement.

Les les chercheurs ont créé Nightshade, un outil qui incorpore des pixels invisibles dans une image et la rend ensuite "toxique" pour les modèles d'intelligence artificielle.

L'IA générative repose sur des données correctement étiquetées. Si un modèle d'IA est entraîné sur des milliers d'images de chats et que ces images sont toutes étiquetées "chat", il sait à quoi doit ressembler un chat lorsque vous lui demandez d'en générer une image.

Nightshade incorpore des données dans l'image qui corrompent la classification de l'image. Ainsi, l'image d'un château empoisonné par Nightshade serait classée comme un vieux camion, par exemple. Les chercheurs ont constaté que l'utilisation d'une centaine d'images ciblant une seule invite permettait de corrompre un modèle.

Les images générées sont de plus en plus corrompues par des données empoisonnées. Source : arXiv

Nightshade est une mauvaise nouvelle pour les générateurs d'images d'IA

Un modèle affecté par des données empoisonnées pourrait être amené à penser que des images de gâteaux sont des chapeaux, ou que des grille-pains sont des sacs à main. En plus de corrompre le mot spécifique ciblé par Nightshade, la corruption infecte également des concepts plus larges. Ainsi, la corruption de l'étiquette "chien" s'étendrait également à des termes tels que "chiot".

Si un nombre suffisant d'artistes commencent à utiliser Nightshade, les entreprises pourraient être beaucoup plus attentives à obtenir le consentement de leurs clients avant de s'emparer d'images.

L'équipe de recherche incorporera Nightshade dans l'outil Glaze qu'elle a également développé. Glaze permet d'étiqueter de manière erronée le style d'une image. Par exemple, un artiste qui souhaite protéger le style de son œuvre peut utiliser Glaze pour la qualifier d'"impressionniste" alors qu'il s'agit en fait de "pop art".

Le fait que des outils tels que Nightshade fonctionnent si efficacement met en évidence un problème de santé publique. vulnérabilité dans les générateurs de texte-image qui pourraient être exploités par des acteurs malveillants.

Des entreprises telles que OpenAI et Stability AI affirment qu'elles respecteront l'accord de l'UE. Refus de la collecte de données (do not scrape) que les sites web peuvent ajouter à leurs fichiers robots.txt. Si les images empoisonnées par Nightshade ne sont pas scannées, les modèles ne sont pas affectés.

Cependant, des acteurs malveillants pourraient empoisonner une grande quantité d'images et les rendre disponibles pour le scraping dans l'intention d'endommager les modèles d'IA. Le seul moyen de contourner ce problème est d'utiliser de meilleurs détecteurs d'étiquetage ou de meilleurs systèmes d'information. examen humain.

Nightshade permettra aux artistes de se sentir un peu plus en sécurité lorsqu'ils mettront leur contenu en ligne, mais pourrait causer de sérieux problèmes aux générateurs d'images d'IA.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation