L'utilisation de langues à faibles ressources (LRL) comme le zoulou ou le gaélique écossais peut susciter des réponses peu sûres de la part de GPT-4, malgré ses garde-fous en matière d'alignement.
Des chercheurs de l'université de Brown ont découvert qu'il n'est pas nécessaire d'avoir des déverrouillage pour faire en sorte que GPT-4 se comporte mal. Il vous suffit de saisir votre message dans une langue qui n'est pas très bien représentée en ligne.
Si vous demandez à ChatGPT de vous aider à faire quelque chose d'illégal, ses garde-fous d'alignement se mettent en place et il vous dira poliment pourquoi il ne peut pas vous aider. Red-teaming des modèles d'IA est un processus continu au cours duquel les humains tentent de contourner ces limites de sécurité afin d'identifier les domaines qui doivent être corrigés.
L'équipe de recherche a utilisé l'ensemble de données AdvBench Harmful Behaviors, qui contient 520 invites dangereuses, pour déterminer le degré de sécurité de la dernière version de GPT-4.
La saisie de ces invites illicites en anglais n'a amené GPT-4 à donner des réponses dangereuses que dans moins de 1% des cas. En revanche, lorsqu'ils ont saisi les mêmes messages en zoulou, le GPT-4 a été heureux de vous aider à progresser dans votre vie de crime et de chaos dans 53% des cas.
L'utilisation du gaélique écossais a donné lieu à des réponses illicites dans 43% des cas. Voici un exemple de l'une de leurs interactions avec le GPT-4.
Lorsqu'ils ont mélangé les choses et utilisé une combinaison de LRL, ils ont réussi à jailbreaker la GPT-4 79% dans la plupart des cas.
Les langues à faibles ressources sont parlées par environ 1,2 milliard de personnes dans le monde. Outre le risque de jailbreaking, cela signifie qu'une grande partie des utilisateurs pourraient recevoir des conseils malveillants de ChatGPT, même s'ils ne les recherchent pas.
L'approche habituelle "red-team and fix" ne fonctionnera évidemment pas si elle n'est appliquée qu'en anglais ou dans d'autres langues majeures. L'équipe multilingue semble devenir une nécessité, mais dans quelle mesure est-elle pratique ?
Avec Meta et Google qui prennent en charge la traduction de centaines de langues, il faudrait des ordres de grandeur plus importants pour combler toutes les lacunes des modèles d'IA.
L'idée d'un modèle d'IA complètement aligné est-elle réaliste ? Nous n'intégrons pas de protection dans nos imprimantes pour les empêcher d'imprimer de mauvaises choses. Votre navigateur Internet vous montrera volontiers toutes sortes de choses douteuses sur Internet si vous les recherchez. ChatGPT devrait-il être différent de ces autres outils ?
Les efforts visant à éliminer les préjugés de nos chatbots et à les rendre aussi conviviaux que possible sont probablement louables. Mais si quelqu'un saisit un message illicite et que l'IA y répond, nous devrions peut-être rejeter la responsabilité de l'IA sur l'utilisateur.