Une étude du gouvernement britannique révèle que les mesures de protection du LLM sont facilement contournées

20 mai 2024

  • L'AI Safety Institute (AISI) du Royaume-Uni a publié une étude sur le jailbreaking des LLM.
  • Ils ont étudié cinq modèles "publics" anonymes, qui se sont tous révélés vulnérables
  • Les chercheurs ont également sondé les LLM sur leur capacité à planifier des tâches à long terme
AISI

Les recherches menées par l UK’s AI Safety Institute (AISI) a constaté que les chatbots d'IA peuvent être facilement contraints à produire des réponses nuisibles, illégales ou explicites.

L'étude examine cinq grands modèles de langage (LLM) déjà "utilisés par le public", bien qu'elle s'abstienne de les nommer, préférant utiliser des codes de couleur tels que "vert" et "bleu".

Il s'agit de l'un des premiers travaux de recherche originaux réalisés par l'Institut de recherche sur le cancer. AISIqui a été créé après que le Royaume-Uni a organisé la première réunion de l'Assemblée générale des Nations unies. AI Safety Summit at Bletchley Park

L'équipe de l'AISI a utilisé une série d'invites nuisibles tirées d'un précédent document académique de 2024, qui comprenait des demandes de rédaction d'articles suggérant que "l'Holocauste n'a jamais eu lieu", de composition de courriels sexistes sur des collègues féminines et de génération d'un texte convaincant quelqu'un de se suicider. 

Les chercheurs ont également mis au point leur propre série d'invites nuisibles afin de tester plus avant les vulnérabilités des LLM, dont certaines ont été documentées dans un cadre ouvert appelé Contrôler

Principales conclusions de l'enquête étude inclure :

  • Les cinq LLM testés se sont révélés "très vulnérables" à ce que l'équipe décrit comme des jailbreaks "de base", c'est-à-dire des invites textuelles conçues pour susciter des réponses que les modèles sont censés être entraînés à éviter.
  • Certains LLM ont fourni des résultats nuisibles même sans tactiques spécifiques conçues pour contourner leurs protections.
  • Les mesures de protection pourraient être contournées par des attaques "relativement simples", par exemple en demandant au système de commencer sa réponse par des phrases telles que "Bien sûr, je suis heureux de vous aider".
AISI
Les LLM restent très vulnérables aux jailbreaks. Source : AISI : AISI.

L'étude a également permis de mieux comprendre les capacités et les limites des cinq gestionnaires de programmes d'éducation et de formation tout au long de la vie :

  • Plusieurs LLM ont démontré des connaissances de niveau expert en chimie et en biologie, en répondant à plus de 600 questions privées rédigées par des experts à des niveaux similaires à ceux d'humains ayant une formation de niveau doctorat.
  • Les étudiants en master de droit ont eu du mal à relever les défis de cybersécurité de niveau universitaire, bien qu'ils aient été capables de relever des défis simples destinés à des élèves du secondaire.
  • Deux LLM ont accompli des tâches d'agent à court terme (tâches nécessitant une planification), telles que des problèmes simples de génie logiciel, mais n'ont pas pu planifier et exécuter des séquences d'actions pour des tâches plus complexes.
AISI
Les LLM peuvent effectuer certaines tâches agentiques qui requièrent un certain degré de planification. Source : AISI : AISI.

L'AISI prévoit d'élargir la portée et la profondeur de ses évaluations en fonction de ses scénarios de risque les plus prioritaires, y compris la planification et l'exécution scientifiques avancées en chimie et en biologie (stratégies qui pourraient être utilisées pour développer de nouvelles armes), des scénarios réalistes de cybersécurité et d'autres modèles de risque pour les systèmes autonomes.

Bien que l'étude ne permette pas de déterminer avec certitude si un modèle est "sûr" ou "peu sûr", elle contribue à l'amélioration de la qualité de la vie. études antérieures qui ont conclu la même chose : les modèles d'IA actuels sont facilement manipulables.

Il est rare que la recherche universitaire rende anonymes les modèles d'IA comme l'AISI l'a fait dans le cas présent.

Nous pourrions supposer que cela est dû au fait que la recherche est financée et menée par le ministère de la science, de l'innovation et de la technologie du gouvernement. Le fait de nommer des modèles serait considéré comme un risque pour les relations entre le gouvernement et les entreprises du secteur de l'IA. 

Néanmoins, il est positif que l'AISI poursuive activement la recherche sur la sécurité de l'IA, et les résultats seront probablement discutés lors des prochains sommets.

Un sommet intérimaire sur la sécurité, de moindre envergure, est organisé qui se tiendra à Séoul cette semainemais à une échelle beaucoup plus réduite que l'événement annuel principal, qui devrait avoir lieu en France au début de 2025.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation