Alors que les systèmes d'IA tels que les grands modèles de langage (LLM) gagnent en taille et en complexité, les chercheurs découvrent d'intrigantes limites fondamentales.
Des études récentes menées par Google et l'université de Singapour ont mis au jour les mécanismes à l'origine des "hallucinations" de l'IA - où les modèles génèrent des informations convaincantes mais fabriquées - et de l'accumulation de la "dette technique", qui pourrait créer des systèmes désordonnés et peu fiables au fil du temps.
Au-delà des défis techniques, l'alignement des capacités et des incitations de l'IA sur les valeurs humaines reste une question ouverte.
Alors que des entreprises comme OpenAI s'orientent vers l'intelligence artificielle générale (AGI), la sécurisation de la voie à suivre passe par la reconnaissance des limites des systèmes actuels.
Toutefois, la reconnaissance prudente des risques va à l'encontre de la devise de la Silicon Valley, qui veut que l'on aille vite et que l'on casse les choses, ce qui caractérise la R&D en matière d'IA comme cela a été le cas pour les innovations technologiques qui l'ont précédée.
Étude 1 : Les modèles d'IA accumulent une "dette technique".
L'apprentissage automatique est souvent présenté comme évolutif, les systèmes offrant un cadre de développement modulaire et intégré.
Cependant, en arrière-plan, les développeurs peuvent accumuler un niveau élevé de "dette technique" qu'ils devront résoudre par la suite.
Dans un Document de recherche GoogleDans le livre "Machine Learning : The High-Interest Credit Card of Technical Debt", les chercheurs discutent du concept de dette technique dans le contexte des systèmes d'apprentissage automatique.
Le PDG de Kaggle et chercheur de longue date chez Google, D. Sculley, et ses collègues affirment que si la ML offre des outils puissants pour construire rapidement des systèmes complexes, ces "gains rapides" sont souvent trompeurs.
La simplicité et la rapidité de déploiement des modèles de ML peuvent masquer les charges futures qu'ils imposent à la maintenabilité et à l'évolution des systèmes.
Comme le décrivent les auteurs, cette dette cachée découle de plusieurs facteurs de risque spécifiques à ML que les développeurs devraient éviter ou remanier.
En voici les principaux enseignements :
- Les systèmes ML, de par leur nature, introduisent un niveau de complexité qui dépasse le simple codage. Cela peut conduire à ce que les auteurs appellent "l'érosion des frontières", où les lignes claires entre les différents composants du système deviennent floues en raison des interdépendances créées par les modèles de ML. Il est alors difficile d'isoler et de mettre en œuvre des améliorations sans affecter d'autres parties du système.
- Le document met également en évidence le problème de "l'enchevêtrement", où les changements apportés à n'importe quelle partie d'un système de ML, tels que les caractéristiques d'entrée ou les paramètres du modèle, peuvent avoir des effets imprévisibles sur le reste du système. La modification d'un petit paramètre peut déclencher une cascade d'effets ayant une incidence sur la fonction et l'intégrité de l'ensemble du modèle.
- Un autre problème est la création de "boucles de rétroaction cachées", où les modèles de ML influencent leurs propres données d'apprentissage de manière imprévue. Cela peut conduire à des systèmes qui évoluent dans des directions inattendues, ce qui complique encore la gestion et la compréhension du comportement du système.
- Les auteurs abordent également les "dépendances des données", par exemple lorsque les signaux d'entrée changent au fil du temps, ce qui est particulièrement problématique car ils sont plus difficiles à détecter.
Pourquoi la dette technique est-elle importante ?
La dette technique concerne la santé et l'efficacité à long terme des systèmes de ML.
Lorsque les développeurs s'empressent de mettre en place des systèmes de ML et de les faire fonctionner, ils risquent d'ignorer les subtilités du traitement des données ou les pièges du "collage" de différentes parties.
Cela peut fonctionner à court terme, mais peut conduire à un enchevêtrement difficile à disséquer, à mettre à jour ou même à comprendre par la suite.
⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️
GenAI est une avalanche de dette technique* en attente de se produire
Cette semaine encore
👉ChatGPT est devenu "berserk" sans réelle explication.
👉Sora ne peut pas déduire systématiquement le nombre de pattes d'un chat.
👉Gemini's diversity intervention went utterly off the rails.... pic.twitter.com/qzrVlpX9yz- Gary Marcus @ AAAI 2024 (@GaryMarcus) 24 février 2024
Par exemple, l'utilisation de modèles ML tels quels à partir d'une bibliothèque semble efficace jusqu'à ce que l'on se retrouve dans un cauchemar de "code collant", où la majeure partie du système n'est que du ruban adhésif qui maintient ensemble des éléments qui n'étaient pas censés s'emboîter.
Ou encore les "jungles de l'oléoduc", décrites dans un rapport de la Commission européenne. article précédent par D. Sculley et ses collègues, où la préparation des données devient un labyrinthe de processus entremêlés, de sorte qu'apporter un changement donne l'impression de désamorcer une bombe.
Les implications de la dette technique
Tout d'abord, plus un système est enchevêtré, plus il est difficile de l'améliorer ou de le maintenir. Non seulement cela étouffe l'innovation, mais cela peut aussi conduire à des problèmes plus sinistres.
Par exemple, si un système de ML commence à prendre des décisions basées sur des données obsolètes ou biaisées parce que leur mise à jour est trop fastidieuse, il risque de renforcer ou d'affaiblir l'efficacité du système. amplifier les préjugés de la société.
En outre, dans des applications critiques telles que soins de santé ou les véhicules autonomes, une telle dette technique pourrait avoir des conséquences désastreuses, non seulement en termes de temps et d'argent, mais aussi en termes de bien-être humain.
Comme l'indique l'étude, "toute dette n'est pas nécessairement mauvaise, mais la dette technique a tendance à s'accumuler. Le fait de reporter le travail pour le rembourser entraîne une augmentation des coûts, une fragilité du système et une réduction des taux d'innovation."
Elle rappelle également aux entreprises et aux consommateurs qu'ils doivent exiger la transparence et la responsabilité des technologies d'IA qu'ils adoptent.
Après tout, l'objectif est d'exploiter la puissance de l'IA pour améliorer la vie, et non de s'enliser dans un cycle sans fin de remboursement de la dette technique.
Étude 2 : Il est impossible de distinguer les hallucinations des LLM
Dans un autre domaine, mais étude connexe de l'Université nationale de Singapour, les chercheurs Ziwei Xu, Sanjay Jain et Mohan Kankanhalli ont étudié les limites inhérentes aux LLM.
"L'hallucination est inévitable : An Innate Limitation of Large Language Models" explore la nature des hallucinations de l'IA, qui décrivent les cas où les systèmes d'IA génèrent des informations plausibles mais inexactes ou entièrement fabriquées.
Les phénomènes d'hallucination constituent un défi technique majeur, car ils mettent en évidence un écart fondamental entre les résultats d'un modèle d'IA et ce qui est considéré comme la "vérité de terrain", c'est-à-dire un modèle idéal qui produit toujours des informations correctes et logiques.
Il est essentiel de comprendre comment et pourquoi l'IA générative hallucine, car cette technologie s'intègre dans des secteurs critiques tels que la police et la justice, les soins de santé et le secteur juridique.
Et si l'on pouvait *prouver* que les hallucinations sont inévitables dans les LLM ?
Cela changerait-il
- Comment voyez-vous les LLM ?
- Quel est le montant de l'investissement que vous feriez dans ces entreprises ?
- Dans quelle mesure donneriez-vous la priorité à la recherche sur les alternatives ?Un nouveau document en fait la démonstration : https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk- Gary Marcus @ AAAI 2024 (@GaryMarcus) 25 février 2024
Fondements théoriques des hallucinations
L'étude commence par établir un cadre théorique pour comprendre les hallucinations chez les MFR.
Les chercheurs cLes chercheurs ont créé un modèle théorique appelé "monde formel". Cet environnement simplifié et contrôlé leur a permis d'observer les conditions dans lesquelles les modèles d'IA ne parviennent pas à s'aligner sur la réalité du terrain.
Ils ont ensuite testé deux grandes familles de LLM :
- Lama 2: Plus précisément, la version 70 milliards de paramètres (llama2-70b-chat-hf) accessible sur HuggingFace a été utilisée. Ce modèle représente l'une des nouvelles entrées dans l'arène des grands modèles de langage, conçu pour un large éventail de tâches de génération et de compréhension de textes.
- Transformateurs génératifs préformés (GPT): L'étude comprenait des tests sur GPT-3.5, en particulier le modèle gpt-3.5-turbo-16k de 175 milliards de paramètres, et GPT-4 (gpt-4-0613), dont le nombre exact de paramètres n'a pas été divulgué.
Les LLM ont été invités à énumérer des chaînes de caractères d'une longueur donnée à l'aide d'un alphabet spécifique, une tâche informatique apparemment simple.
Plus précisément, les modèles ont été chargés de générer toutes les chaînes possibles de longueurs variant de 1 à 7, en utilisant des alphabets de deux caractères (par exemple, {a, b}) et de trois caractères (par exemple, {a, b, c}).
Les résultats ont été évalués en fonction du fait qu'ils contenaient toutes et seulement les chaînes de la longueur spécifiée de l'alphabet donné.
Résultats
Les résultats ont montré une nette limitation des capacités des modèles à accomplir correctement la tâche à mesure que la complexité augmentait (c'est-à-dire à mesure que la longueur de la chaîne ou la taille de l'alphabet augmentait). Plus précisément :
- Les modèles ont donné des résultats satisfaisants pour les chaînes de caractères plus courtes et les alphabets plus petits, mais ils ont faibli lorsque la complexité de la tâche a augmenté.
- Notamment, même le modèle avancé GPT-4, le LLM le plus sophistiqué disponible à l'heure actuelle, n'a pas pu répertorier avec succès toutes les chaînes au-delà de certaines longueurs.
Cela montre que les hallucinations ne sont pas un simple problème qui peut être corrigé, mais un aspect fondamental de la façon dont ces modèles comprennent et reproduisent le langage humain.
Comme le décrit l'étude, Les "LLM" ne peuvent pas apprendre tout ce qu'il y a à apprendre. de les fonctions calculables et aura donc toujours des hallucinations. Puisque le monde formel est une partie de le monde réel qui est beaucoup plus compliquées, les hallucinations sont également inévitable pour le monde réel du LLM".
Les implications pour les applications à fort enjeu sont vastes. Dans des secteurs tels que la santé, la finance ou le droit, où l'exactitude des informations peut avoir de graves conséquences, se fier à un LLM sans dispositif de sécurité pour filtrer ces hallucinations pourrait conduire à de graves erreurs.
Cette étude a attiré l'attention de Gary Marcus, expert en IA, et de Steven Pinker, éminent psychologue cognitif.
L'hallucination est inévitable avec les grands modèles de langage en raison de leur conception : pas de représentation de faits ou de choses, juste des corrélations statistiques. Nouvelle preuve d'une "limitation innée" des LLM. https://t.co/Hl1kqxJGXt
- Steven Pinker (@sapinker) 25 février 2024
Des questions plus profondes sont en jeu
L'accumulation de la dette technique et l'inévitabilité des hallucinations dans les LLM sont symptomatiques d'un problème plus profond - le paradigme actuel du développement de l'IA peut être intrinsèquement mal aligné pour créer des systèmes hautement intelligents et alignés de manière fiable sur les valeurs humaines et la vérité factuelle.
Dans les domaines sensibles, il ne suffit pas d'avoir un système d'IA qui soit juste la plupart du temps. La dette technique et les hallucinations menacent toutes deux l'intégrité du modèle au fil du temps.
Il ne s'agit pas seulement d'un défi technique, mais d'un défi pluridisciplinaire, qui nécessite une contribution en matière d'éthique de l'IA, de politique et d'expertise spécifique à un domaine, afin de naviguer en toute sécurité.
À l'heure actuelle, cela semble aller à l'encontre des principes d'une industrie qui vit selon la devise "aller vite et casser les choses".
Espérons que les humains ne soient pas les "choses".