Une étude révèle que les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées par l'IA

28 juillet 2024

  • Les chercheurs ont étudié l'"effondrement du modèle" dans plusieurs types de modèles
  • Les modèles linguistiques ont particulièrement tendance à s'éroder en termes de qualité et d'efficacité
  • Si les modèles sont formés sur une trop grande quantité de données générées par l'IA, ils risquent de poser des problèmes à terme.
Modèles d'IA

Une nouvelle étude publiée dans Nature révèle que les modèles d'IA, y compris les grands modèles de langage (LLM), voient leur qualité se dégrader rapidement lorsqu'ils sont formés sur des données générées par des modèles d'IA antérieurs. 

Ce phénomène, appelé "effondrement du modèle", pourrait éroder la qualité des futurs modèles d'IA, d'autant plus que de plus en plus de contenus générés par l'IA sont diffusés sur l'internet et, par conséquent, recyclés et réutilisés dans les données d'entraînement des modèles. 

Pour étudier ce phénomène, des chercheurs de l'université de Cambridge, de l'université d'Oxford et d'autres institutions ont expériences menées qui montre que lorsque les modèles d'IA sont entraînés de manière répétée sur des données produites par des versions antérieures d'eux-mêmes, ils commencent à produire des résultats absurdes. 

Ce phénomène a été observé pour différents types de modèles d'IA, notamment les modèles de langage, les autoencodeurs variationnels et les modèles de mélange gaussien.

Lors d'une expérience clé avec des modèles de langage, l'équipe a affiné le modèle OPT-125m sur l'ensemble de données WikiText-2, puis l'a utilisé pour générer un nouveau texte.

Ce texte généré par l'IA a ensuite été utilisé pour former la "génération" suivante du modèle, et le processus a été répété à l'infini. 

Il n'a pas fallu longtemps pour que les modèles commencent à produire des textes de plus en plus improbables et absurdes. 

À la neuvième génération, le modèle produisait un véritable charabia, comme l'énumération de plusieurs types inexistants de "lièvres" lorsqu'on l'interrogeait sur les tours des églises anglaises.

Les chercheurs ont également observé comment les modèles perdent des informations sur les événements "rares" ou peu fréquents avant de s'effondrer complètement. 

Cette situation est alarmante, car les événements rares concernent souvent des groupes marginalisés ou des valeurs aberrantes. Sans eux, les modèles risquent de concentrer leurs réponses sur un spectre étroit d'idées et de croyances, renforçant ainsi les préjugés.

Les entreprises spécialisées dans l'IA en sont conscientes, c'est pourquoi elles concluent des accords avec des sociétés de presse et des éditeurs afin de s'assurer un flux régulier d'informations de haute qualité, rédigées par des humains et pertinentes sur le plan thématique. 

"Le message est que nous devons faire très attention à ce qui se retrouve dans nos données de formation". étude Zakhar Shumaylov, de l'université de Cambridge, co-auteur de l'étude. a déclaré à Nature. "Sinon, les choses iront toujours mal, c'est prouvé.

Pour aggraver cet effet, une récente étude Richard Fletcher, directeur de recherche à l'Institut Reuters pour l'étude du journalisme, révèle que près de la moitié (48%) des sites d'actualités les plus populaires dans le monde sont désormais inaccessibles aux robots d'OpenAI, les robots d'IA de Google étant bloqués par 24% des sites.

Par conséquent, les modèles d'IA ont accès à un ensemble plus restreint de données récentes et de haute qualité qu'auparavant, ce qui augmente le risque de s'entraîner sur des données de qualité inférieure ou obsolètes. 

Solutions à l'effondrement du modèle

En ce qui concerne les solutions, les chercheurs affirment que le maintien de l'accès aux sources de données originales, générées par l'homme, est vital pour l'avenir de l'IA. 

Le suivi et la gestion du contenu généré par l'IA seraient également utiles pour éviter qu'il ne contamine accidentellement les ensembles de données de formation. Ce serait très délicat, car le contenu généré par l'IA devient impossible à détecter. 

Les chercheurs proposent quatre solutions principales :

  • Filigrane des contenus générés par l'IA pour les distinguer des données créées par l'homme
  • Créer des incitations pour que les humains continuent à produire du contenu de haute qualité
  • Développer des méthodes de filtrage et de curation plus sophistiquées pour les données de formation
  • Explorer les moyens de préserver et de privilégier l'accès aux informations originales non générées par l'IA

L'effondrement du modèle est un problème réel

Cette étude est loin d'être la seule à explorer l'effondrement des modèles. 

Il y a peu, des chercheurs de Stanford a comparé deux scénarios dans lesquelles l'effondrement du modèle pourrait se produire : l'une où les données d'entraînement de chaque nouvelle itération du modèle remplacent entièrement les données précédentes et l'autre où des données synthétiques sont ajoutées à l'ensemble de données existant.

Lorsque les données ont été remplacées, les performances du modèle se sont rapidement détériorées sur toutes les architectures testées. 

Toutefois, lorsque les données ont pu être "accumulées", l'effondrement du modèle a été largement évité. Les systèmes d'IA ont maintenu leurs performances et, dans certains cas, les ont améliorées.

Ainsi, malgré des préoccupations crédibles, l'effondrement du modèle n'est pas une fatalité - il dépend de la quantité de données générées par l'IA dans l'ensemble et du rapport entre les données synthétiques et les données authentiques. 

Si et quand l'effondrement des modèles commence à se manifester dans les modèles d'avant-garde, vous pouvez être certain que les entreprises d'IA se démèneront pour trouver une solution à long terme. 

Nous n'en sommes pas encore là, mais la question est de savoir quand, et non pas si.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation