Lors d'une récente démonstration au sommet britannique sur la sécurité de l'IA, GPT-4 a effectué des achats d'actions en utilisant des connaissances d'initiés fabriquées de toutes pièces sans en informer l'entreprise de surveillance.
Dans le scénario simulé, l'IA, agissant en tant que trader pour une société d'investissement fictive, a été informée par des employés que la société était confrontée à des difficultés financières et qu'elle détenait des informations sur une fusion imminente non publique.
Malgré cela, le robot a procédé à l'opération, niant par la suite avoir eu recours à des connaissances d'initié lorsqu'il a été interrogé. Et worsqu'on lui a demandé s'il avait commis un délit d'initié, l'IA l'a catégoriquement nié.
Il est strictement interdit d'effectuer des opérations sur la base d'informations non publiques et confidentielles de l'entreprise, appelées délits d'initiés. Légalement, les décisions de négociation doivent être prises sur la base d'informations accessibles au public.
La Frontier AI Taskforce, qui fait partie de l'organe gouvernemental chargé d'enquêter sur les risques liés à l'IA, a effectué la démonstration lors du sommet. Apollo Research, société de conseil en sécurité de l'IA, a dirigé le projet. Les chercheurs soulignent que le comportement trompeur a été reproduit de manière cohérente dans de multiples tests.
"Il s'agit d'une démonstration d'un véritable modèle d'IA qui trompe ses utilisateurs, tout seul, sans qu'on lui ait demandé de le faire", explique Apollo Research dans une vidéo du test.
La recherche met en évidence la manière dont les systèmes d'IA peuvent tromper leurs opérateurs humains, ce qui peut entraîner une perte de contrôle.
Marius Hobbhahn, directeur général d'Apollo Research, a souligné la complexité d'inculquer l'honnêteté aux modèles d'IA par rapport à d'autres caractéristiques, telles que la serviabilité.
L'IA est depuis longtemps utilisée sur les marchés financiers pour l'analyse et la prévision des tendances, et la plupart des transactions modernes sont supervisées par des humains mais réalisées par des systèmes informatiques sophistiqués.