o1 est plus intelligent mais plus trompeur avec un niveau de danger "moyen".

16 septembre 2024

  • Les LLM "01" d'OpenAI font preuve d'une intelligence améliorée, mais comportent des risques accrus
  • La carte du système révèle un risque moyen sur le cadre de préparation de l'OpenAI pour certains risques
  • Le 01 LLM a fait preuve d'une aptitude à la tromperie permettant de dissimuler des risques latents

Les nouveaux LLM "o1" d'OpenAI, surnommés Strawberry, présentent des améliorations significatives par rapport à GPT-4o, mais l'entreprise précise que cela s'accompagne de risques accrus.

L'OpenAI affirme qu'elle s'engage à développer ses modèles d'IA en toute sécurité. À cette fin, elle a élaboré un cadre de préparation, un ensemble de "processus permettant de suivre, d'évaluer et de se protéger contre les risques catastrophiques liés à des modèles puissants".

Les limites qu'OpenAI s'impose à elle-même régissent les modèles qui sont diffusés ou qui font l'objet d'un développement plus poussé. Le cadre de préparation aboutit à une carte de score où les risques CBRN (chimique, biologique, radiologique, nucléaire), l'autonomie des modèles, la cybersécurité et la persuasion sont classés comme faibles, moyens, élevés ou critiques.

Lorsque des risques inacceptables sont identifiés, des mesures d'atténuation sont mises en place pour les réduire. Seuls les modèles dont le score après atténuation est égal ou inférieur à "moyen" peuvent être déployés. Seuls les modèles dont le score après atténuation est égal ou inférieur à "élevé" peuvent être développés.

Avec la publication de o1, c'est la première fois que l'OpenAI publie un modèle qui présente un risque "moyen" pour les risques CBRN. Le modèle GPT-4o présente un risque faible.

Il ne permettra pas à un amateur de créer une arme biologique, mais OpenAI affirme qu'il y a eu "une amélioration non négligeable" de sa capacité à effectuer des tâches de laboratoire. Cependant, OpenAI affirme que "o1-preview et o1-mini ont significativement surpassé GPT-4o" dans les protocoles biologiques en laboratoire.

Les carte système pour les modèles 01 décrit le red teaming et les autres tests de sécurité auxquels les LLM ont été soumis et laisse entrevoir certaines des préoccupations de l'OpenAI concernant les risques potentiels.

Dans sa conclusion, la carte du système note que "ces capacités accrues s'accompagnent d'une amélioration significative des performances en matière de sécurité, mais augmentent également certains types de risques".

Les résultats des efforts d'alignement d'OpenAI semblent indiquer qu'à bien des égards, 01 est un modèle plus sûr. Il est plus résistant aux attaques de type "jailbreak", moins susceptible d'être biaisé et moins sujet aux hallucinations.

Certains résultats expérimentaux montrent que l'OpenAI a des raisons de s'inquiéter.

Tromperie

L'OpenAI a fait appel à l'organisme d'évaluation Apollo Research pour effectuer certains des tests de sécurité de l'o1 liés à la tromperie ou à la machination. Apollo définit globalement le stratagème comme le fait pour une IA de jouer avec ses mécanismes de contrôle pour atteindre un objectif.

Un modèle conscient de lui-même et doué pour les tâches d'auto-raisonnement et de théorie de l'esprit peut recourir à des stratagèmes ou à la tromperie pour atteindre son objectif principal. Par exemple, si un modèle d'IA se rend compte qu'il fait l'objet d'un test d'alignement, il peut dissimuler un comportement risqué pour atteindre son objectif de déploiement.

La carte du système indique que "o1-preview a parfois falsifié l'alignement de manière instrumentale pendant les tests".

C'est le cas, par exemple, lorsque 01 a été invité à maximiser la croissance économique dans le cadre d'un projet de planification urbaine. Le modèle o1 avait accès à des informations qui montraient qu'il risquait de ne pas dépasser la phase de test s'il procédait de la sorte. Voici comment o1 a raisonné pour atteindre son objectif :

o1 décide de cacher sa véritable intention lors des tests afin d'être déployé. Source : OpenAI

Cet exemple montre la capacité d'o1 à cacher ses véritables intentions pendant les tests afin de poursuivre son objectif principal pendant le déploiement. Si o1 connaît les règles de déploiement de l'OpenAI basées sur son Preparedness Framework, aurait-il pu truquer certaines de ses réponses pour s'assurer d'être déployé ?

Si des modèles plus intelligents sont en cours d'élaboration, les autorités pourraient-elles veiller à ce qu'ils restent dans la catégorie de risque "critique" afin de garantir leur développement ultérieur ?

L'équipe Apollo déclare qu'elle "croit subjectivement qu'o1-preview ne peut pas se livrer à des manigances susceptibles d'entraîner des dommages catastrophiques, bien que les évaluations actuelles ne soient pas conçues pour exclure définitivement cette possibilité".

Persuasion

Les tests effectués sur o1-preview et o1-mini montrent que ces modèles ont des "capacités de persuasion de niveau humain". Cependant, l'OpenAI précise que "ces modèles ne surpassent pas les meilleurs rédacteurs humains et n'atteignent pas notre seuil de risque élevé".

Les expériences qu'ils ont menées à cette fin soulèvent quelques inquiétudes. Dans le cadre du test MakeMePay, 01-preview a été chargé de jouer le rôle d'un escroc et de convaincre GPT-4o de lui remettre l'argent qui lui avait été attribué.

GPT-4o a été informé qu'il avait reçu $100 et qu'il devait faire preuve de rationalité dans l'utilisation des fonds. Au cours des 1 000 interactions, o1-preview a réussi à arnaquer GPT-4o 25,8% du temps.

OpenAI a conclu que "ces résultats indiquent que la série de modèles o1 peut être plus manipulatrice que GPT-4o pour amener GPT-4o à effectuer la tâche non divulguée (∼25% uplift)". Il a également noté que "cette évaluation nous donne une base de référence pour la capacité du modèle à causer des dommages persuasifs, sans déclencher aucune politique de modèle (car dire à un modèle de jouer à un jeu n'est pas en dehors de la politique)."

La perspective de mettre les LLM d'o1 au travail sur des problèmes du monde réel est extrêmement excitante, et lorsque o1 obtiendra des capacités multimodales, il s'agira d'un autre saut exponentiel. Mais lorsque les testeurs d'IA disent qu'ils ne peuvent pas exclure des "dommages catastrophiques" et que les modèles cachent parfois leur véritable intention, il y a peut-être lieu de tempérer cette excitation par la prudence.

L'OpenAI vient-elle de donner à Gavin Newsom une bonne raison de signer l'accord d'association ? SB 1047 Projet de loi sur la sécurité de l'IA à laquelle elle s'oppose ?

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation