L'"IA constitutionnelle" peut-elle résoudre le problème du comportement problématique de l'IA ?

7 octobre 2023

IA anthropique

Alors que les modèles d'IA continuent de s'intégrer dans notre vie quotidienne, les inquiétudes concernant les limites et la fiabilité de ce que l'on appelle les "garde-fous" se multiplient.

Les modèles d'IA omniprésente tels que GPT-3.5/4/4V et autres sont dotés de garde-fous et de mesures de sécurité intégrés qui les empêchent de produire des résultats illicites, contraires à l'éthique ou indésirables.

Cependant, ces dispositifs de sécurité sont loin d'être imperméables et certains modèles prouvent qu'ils peuvent se détacher de leurs garde-fous ou dérailler, pour ainsi dire.

Le problème réside en partie dans le fait que les garde-fous ne suivent pas le rythme de la complexité et de la diversité des modèles. 

Ces dernières semaines, OpenAI, soutenue par Microsoft, a révélé des améliorations majeures dans ChatGPT, lui permettant d'interagir en utilisant uniquement la voix et de répondre à des requêtes par le biais d'images et de textes. Cette version multimodale de GPT-4, capable de traiter des images, a été baptisée "GPT-4V".

Parallèlement, Meta a annoncé le déploiement d'un assistant d'IA, de plusieurs personnalités chatbot célébrités pour les utilisateurs de WhatsApp et d'Instagram, ainsi qu'une multitude d'autres fonctionnalités d'IA discrètes comme les autocollants AI. 

Les gens ont rapidement manipulé les Autocollants AI à générer des images comiques et choquantes de type bande dessinée, comme Karl Marx nu ou Mario avec un fusil d'assaut. 

Alors que la course à la commercialisation de l'IA s'intensifie, les garanties conçues pour contrôler les comportements de l'IA - et l'empêcher de générer des contenus nuisibles, de la désinformation ou de contribuer à des activités illicites - s'avèrent plus fragiles. 

L'IA constitutionnelle est-elle la solution ?

Pour lutter contre ce phénomène, les entreprises de développement de l'IA s'efforcent de créer des "constitutions de l'IA", un ensemble de principes et de valeurs fondamentaux auxquels les modèles d'IA doivent adhérer. La startup Anthropique a été l'un des premiers à prôner l'"IA constitutionnelle" dans une 2022 papier.

Google DeepMind a également établi des règles constitutionnelles pour son chatbot. Moineau en 2022 d'entretenir des conversations "utiles, correctes et inoffensives". 

Les constitutions de l'IA d'Anthropic tirent leurs principes de diverses sources, dont la Déclaration des droits de l'homme des Nations unies et les conditions d'utilisation d'Apple. Le modèle est doté de principes moraux fondamentaux qui orientent le comportement de la base vers le sommet plutôt que d'imposer des garde-fous du haut vers le bas. 

Au lieu de former laborieusement l'IA à l'aide d'innombrables exemples de bien ou de mal fournis par l'homme, cette approche intègre un ensemble de règles ou de principes - une "constitution" - auxquels l'IA se conforme.

Dans un premier temps, l'IA est confrontée à une situation, puis elle est invitée à critiquer sa réponse et, enfin, à affiner son comportement en fonction de la solution révisée.

Ensuite, le système passe à la phase d'apprentissage par renforcement. Ici, il évalue la qualité de ses propres réponses, en distinguant la meilleure. Au fil du temps, cette auto-évaluation affine son comportement.

La particularité est que l'IA utilise sa boucle de rétroaction pour déterminer la récompense selon une méthode appelée "RL à partir de la rétroaction de l'IA" (RLAIF). Lorsqu'elle est confrontée à des requêtes potentiellement nuisibles ou trompeuses, l'IA ne se contente pas d'esquiver ou de refuser. Au contraire, elle aborde la question de front, en expliquant pourquoi une telle demande peut être problématique.

Il s'agit d'un pas en avant dans la création de machines qui non seulement calculent, mais aussi "pensent" de manière structurée.

Dario Amodei, PDG et cofondateur d'Anthropic, a souligné la difficulté de comprendre le fonctionnement interne des modèles d'IA. Il suggère qu'une constitution rendrait les règles transparentes et explicites, afin que tous les utilisateurs sachent à quoi s'attendre. 

Il est important de noter qu'il offre également un moyen de responsabiliser le modèle s'il n'adhère pas aux principes énoncés.

Malgré ces efforts, les constitutions d'IA ne sont pas exemptes de défauts, et les modèles de développeurs tels qu'Anthropic se sont révélés vulnérables à l'infection par le virus de la grippe aviaire. jailbreaks comme beaucoup d'autres. 

Il n'existe pas de méthode universellement acceptée pour former des modèles d'IA sûrs et éthiques.

Historiquement, les modèles d'IA ont été affinés à l'aide d'une méthode appelée apprentissage par renforcement par retour d'information humain (RLHF), dans laquelle les réponses de l'IA sont classées comme "bonnes" ou "mauvaises" par de grandes équipes d'évaluateurs humains. 

Bien qu'efficace dans une certaine mesure, cette méthode a été critiquée pour son manque de précision et de spécificité. Pour garantir l'éthique et la sécurité de l'IA, les entreprises explorent désormais d'autres solutions.

Par exemple, OpenAI a adopté l'approche "red-teaming", en engageant des experts de différentes disciplines pour tester et identifier les faiblesses de ses modèles.

Le système d'OpenAI fonctionne par itérations : le modèle d'IA produit des résultats, des examinateurs humains évaluent et corrigent ces résultats sur la base de lignes directrices spécifiques, et le modèle apprend à partir de ce retour d'information. Les données d'entraînement de ces évaluateurs sont essentielles pour le calibrage éthique du modèle.

ChatGPT opte souvent pour une réponse conservatrice lorsqu'il est confronté à des sujets controversés ou sensibles, évitant parfois une réponse directe. Cela contraste avec l'IA constitutionnelle, où le modèle devrait élucider ses réserves lorsqu'il est confronté à des requêtes potentiellement dangereuses, en démontrant activement un raisonnement basé sur ses règles fondamentales.

En substance, alors que ChatGPT s'appuie fortement sur le retour d'information humain pour son orientation éthique, l'IA constitutionnelle utilise un cadre basé sur des règles établies avec des mécanismes d'auto-évaluation et met l'accent sur la transparence du raisonnement.

En fin de compte, il n'y a probablement pas d'approche unique pour développer des IA "sûres" - et certains, comme Elon Musk, critiquent la notion d'IA aseptisée et "éveillée". Des études ont prouvé que que même les IA constitutionnelles peuvent être piratées et manipulées pour adopter un comportement imprévisible. 

Rebecca Johnson, chercheuse en éthique de l'IA à l'université de Sydney, a souligné que les ingénieurs en IA et les informaticiens abordent souvent les problèmes dans le but de trouver des solutions définitives, ce qui ne tient pas toujours compte des complexités de la nature humaine. 

"Nous devons commencer à considérer l'IA générative comme une extension de l'homme, elle n'est qu'un autre aspect de l'humanité", a-t-elle déclaré. 

Le contrôle global de l'IA comme une sorte de simple système technique ne fera que s'accentuer. plus difficile à mesure qu'il évolueIl en va de même pour les organismes biologiques que nous sommes.

La divergence, provoquée ou non, est peut-être inévitable.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation