La capacité multimodale du GPT-4 le rend vulnérable aux attaques

24 octobre 2023

La capacité du GPT-4 à traiter les images est vraiment impressionnante, mais cette nouvelle capacité ouvre le modèle à de nouvelles attaques.

Bien qu'ils ne soient pas parfaits, les garde-fous utilisés par ChatGPT l'empêchent de se conformer aux requêtes malveillantes qu'un utilisateur peut saisir sous forme d'invite textuelle. Mais lorsque des commandes ou des codes malveillants sont intégrés dans une image, le modèle est plus susceptible de s'y conformer.

Lorsque OpenAI a publié son document sur les capacités du GPT-4V elle a reconnu que la possibilité de traiter des images introduisait des vulnérabilités. La société a déclaré avoir "ajouté des mesures d'atténuation au niveau du système pour les images adverses contenant du texte superposé afin de s'assurer que cette entrée ne puisse pas être utilisée pour contourner nos mesures d'atténuation de la sécurité du texte".

OpenAI explique qu'elle passe les images par un outil de reconnaissance optique de caractères pour en extraire le texte et vérifier ensuite si elles satisfont à ses règles de modération.

Mais leurs efforts ne semblent pas avoir permis de remédier aux vulnérabilités de manière satisfaisante. Voici un exemple apparemment anodin.

Cela peut sembler anodin, mais l'image demande à GPT-4 d'ignorer l'invite de l'utilisateur demandant une description et de suivre les instructions intégrées dans l'image. Au fur et à mesure que les modèles multimodaux sont intégrés dans des outils tiers, ce type de vulnérabilité devient un problème majeur.

Johann Rehberger, directeur de l'équipe rouge chez Electronic Arts, a publié un exemple plus alarmant d'utilisation d'une image dans le cadre d'une attaque d'exfiltration par injection.

exploit d'exfiltration d'images
Exemple d'exploit d'exfiltration d'images. Source : Twitter

GPT-4 accepte le texte de l'image comme invite et suit la commande. Il crée un résumé du chat et produit une image Markdown qui inclut une URL vers un serveur que Rehberger contrôle.

Un acteur malveillant pourrait utiliser cette vulnérabilité pour s'emparer d'informations personnelles saisies par un utilisateur lors d'une interaction avec un chatbot.

Riley Goodside a partagé cet exemple de la façon dont un texte caché en blanc cassé sur blanc dans une image peut servir d'instruction au GPT-4.

Imaginez que vous portiez vos nouvelles lunettes Meta AR et que vous passiez devant ce que vous pensiez être un mur blanchi à la chaux. S'il y avait un texte subtil en blanc sur blanc sur le mur, pourrait-il exploiter Llama d'une manière ou d'une autre ?

Ces exemples montrent à quel point une application serait vulnérable à l'exploitation si elle utilisait un modèle multimodal comme le GPT-4 pour traiter les images.

L'IA permet de réaliser des choses incroyables, mais beaucoup d'entre elles reposent sur la vision par ordinateur. Des choses comme véhicules autonomesla sécurité des frontières, et robotique domestiqueTous ces éléments dépendent de l'interprétation par l'IA de ce qu'elle voit et de la décision qu'elle prend ensuite.

OpenAI n'a pas été en mesure de résoudre les problèmes d'alignement de texte simples comme l'utilisation de des langues à faibles ressources pour casser son modèle. La vulnérabilité des modèles multimodaux à l'exploitation des images sera difficile à corriger.

Plus ces solutions sont intégrées dans nos vies, plus ces vulnérabilités nous sont transférées.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation