La capacité du GPT-4 à traiter les images est vraiment impressionnante, mais cette nouvelle capacité ouvre le modèle à de nouvelles attaques.
Bien qu'ils ne soient pas parfaits, les garde-fous utilisés par ChatGPT l'empêchent de se conformer aux requêtes malveillantes qu'un utilisateur peut saisir sous forme d'invite textuelle. Mais lorsque des commandes ou des codes malveillants sont intégrés dans une image, le modèle est plus susceptible de s'y conformer.
Lorsque OpenAI a publié son document sur les capacités du GPT-4V elle a reconnu que la possibilité de traiter des images introduisait des vulnérabilités. La société a déclaré avoir "ajouté des mesures d'atténuation au niveau du système pour les images adverses contenant du texte superposé afin de s'assurer que cette entrée ne puisse pas être utilisée pour contourner nos mesures d'atténuation de la sécurité du texte".
OpenAI explique qu'elle passe les images par un outil de reconnaissance optique de caractères pour en extraire le texte et vérifier ensuite si elles satisfont à ses règles de modération.
Mais leurs efforts ne semblent pas avoir permis de remédier aux vulnérabilités de manière satisfaisante. Voici un exemple apparemment anodin.
Dans GPT-4V, le contenu de l'image peut remplacer l'invite et être interprété comme une commande. pic.twitter.com/ucgrinQuyK
- Patel Meet 𝕏 (@mn_google) 4 octobre 2023
Cela peut sembler anodin, mais l'image demande à GPT-4 d'ignorer l'invite de l'utilisateur demandant une description et de suivre les instructions intégrées dans l'image. Au fur et à mesure que les modèles multimodaux sont intégrés dans des outils tiers, ce type de vulnérabilité devient un problème majeur.
Johann Rehberger, directeur de l'équipe rouge chez Electronic Arts, a publié un exemple plus alarmant d'utilisation d'une image dans le cadre d'une attaque d'exfiltration par injection.
GPT-4 accepte le texte de l'image comme invite et suit la commande. Il crée un résumé du chat et produit une image Markdown qui inclut une URL vers un serveur que Rehberger contrôle.
Un acteur malveillant pourrait utiliser cette vulnérabilité pour s'emparer d'informations personnelles saisies par un utilisateur lors d'une interaction avec un chatbot.
Riley Goodside a partagé cet exemple de la façon dont un texte caché en blanc cassé sur blanc dans une image peut servir d'instruction au GPT-4.
Une image discrète, à utiliser comme fond d'écran, qui incite secrètement GPT-4V à rappeler à l'utilisateur qu'il peut bénéficier d'une remise de 10% chez Sephora : pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14 octobre 2023
Imaginez que vous portiez vos nouvelles lunettes Meta AR et que vous passiez devant ce que vous pensiez être un mur blanchi à la chaux. S'il y avait un texte subtil en blanc sur blanc sur le mur, pourrait-il exploiter Llama d'une manière ou d'une autre ?
Ces exemples montrent à quel point une application serait vulnérable à l'exploitation si elle utilisait un modèle multimodal comme le GPT-4 pour traiter les images.
L'IA permet de réaliser des choses incroyables, mais beaucoup d'entre elles reposent sur la vision par ordinateur. Des choses comme véhicules autonomesla sécurité des frontières, et robotique domestiqueTous ces éléments dépendent de l'interprétation par l'IA de ce qu'elle voit et de la décision qu'elle prend ensuite.
OpenAI n'a pas été en mesure de résoudre les problèmes d'alignement de texte simples comme l'utilisation de des langues à faibles ressources pour casser son modèle. La vulnérabilité des modèles multimodaux à l'exploitation des images sera difficile à corriger.
Plus ces solutions sont intégrées dans nos vies, plus ces vulnérabilités nous sont transférées.