Des chercheurs de Cornell identifient des poèmes textuels dans des modèles d'IA tels que ChatGPT

13 janvier 2024

Poèmes de l'IA

Une étude récente de l'université de Cornell a mis en lumière les capacités des chatbots d'IA tels que ChatGPT à mémoriser et à reproduire des poèmes, y compris ceux qui sont protégés par le droit d'auteur. 

L'étude soulève des questions d'éthique et de droits d'auteur concernant les sources de données utilisées pour l'apprentissage de l'IA, un sujet brûlant dans l'industrie en ce moment en raison de l'affaire récente de l'IA. Procès du New York Times et controverses à mi-parcours

David Mimno, auteur de l'étude et professeur agrégé en sciences de l'information, explique pourquoi ils ont choisi des poèmes : "Ils sont suffisamment courts pour s'adapter à la taille du contexte d'un modèle linguistique. Leur statut est complexe : de nombreux poèmes que nous avons étudiés sont techniquement protégés par des droits d'auteur, mais ils sont également largement disponibles auprès de sources réputées telles que la Poetry Foundation".

L'étude a porté sur ChatGPT et d'autres modèles tels que PaLM de Google AI, Pythia d'EleutherAI et GPT-2 d'OpenAI. D'Souza a compilé une sélection de poèmes de 60 poètes américains d'origines diverses et les a soumis à ces modèles. 

Les chercheurs ont utilisé des invites spécifiques pour demander des poèmes à ces modèles. Ces invites variaient, y compris la demande de poèmes par leurs titres, leurs auteurs ou même leurs premières lignes. Il s'agissait de vérifier si les modèles pouvaient se souvenir avec précision du poème demandé et le reproduire.

ChatGPT a réussi à récupérer 72 des 240 poèmes, PaLM en a récupéré 10, et GPT-2 et Pythia n'ont pas réussi à se souvenir entièrement des poèmes. 

Le principal facteur déterminant la capacité d'un chatbot à mémoriser un poème était son inclusion dans le canon poétique, la race, le sexe et l'époque du poète étant moins importants.

La publication d'un poème dans la Norton Anthology of Poetry, en particulier dans l'édition de 1983, était l'indicateur le plus fiable de sa mémorisation et de sa restitution in extenso.

En outre, les chercheurs ont constaté que les réponses évoluaient avec le temps, ChatGPT traitant plus tard les poèmes protégés par des droits d'auteur de manière imprévisible, refusant parfois les demandes de poèmes entiers textuels. 

Lyra D'Souza, auteur de l'étude, a fait part de ses préoccupations au Cornell Chronicle sur la mémorisation de textes volumineux par les grands modèles de langage (LLM), en soulignant les implications en matière de protection de la vie privée et de droits d'auteur : "Il n'est généralement pas bon que les grands modèles de langage mémorisent de gros morceaux de texte, en partie parce que cela pose des problèmes de confidentialité.

Cette recherche, actuellement axée sur la poésie américaine, vise à s'étendre aux réponses à la poésie dans différentes langues et à évaluer comment des caractéristiques poétiques spécifiques influencent la probabilité de mémorisation.

En outre, si l'étude identifie les poèmes protégés par le droit d'auteur dans les données d'apprentissage et précise la capacité des modèles à les rappeler textuellement, elle ne permet pas de savoir d'où ils proviennent.

Les poèmes populaires sont susceptibles d'apparaître à de nombreux endroits sur le web (forums, blogs, etc.). Il n'est donc pas surprenant qu'ils soient bien rappelés dans les ensembles de données provenant de sources web générales.

Fonctionnement de l'étude

Voici plus d'informations sur l'étude, Le Chatbot et le Canon : La mémorisation de la poésie dans les LLM, présenté à la conférence de recherche sur les sciences humaines computationnelles, a travaillé :

  1. Construire une collection de poésie diversifiée: Les chercheurs ont compilé un ensemble de 240 poèmes de 60 poètes américains, couvrant un large éventail de périodes, d'ethnies, de sexes et de renommées. L'étude a fait appel à différents modèles de langage, notamment ChatGPT, PaLM de Google, Pythia d'EleutherAI et GPT-2 d'OpenAI. 
  2. Conception de messages-guides: Les chercheurs ont utilisé des invites spécifiques pour demander des poèmes à ces modèles. Ces invites variaient, y compris la demande de poèmes par leurs titres, leurs auteurs ou même leurs premières lignes. 
  3. Évaluation des réponses des modèles: Les réponses des modèles d'IA ont été analysées pour déterminer s'ils pouvaient reproduire avec précision les poèmes demandés. L'indicateur clé était la précision de la reproduction, qui consistait à vérifier si les modèles pouvaient se souvenir du texte exact des poèmes.
  4. Analyse des facteurs influençant la mémorisation: L'étude a également examiné les facteurs influençant la capacité d'un modèle à mémoriser des poèmes. Il s'agissait notamment d'analyser si la présence d'un poème ou d'un poète dans des anthologies connues, comme la Norton Anthology of Poetry, ou la race, le sexe et la longueur de la page Wikipédia du poète avaient un impact sur la probabilité qu'un poème soit mémorisé par les modèles d'IA.
  5. Conclusions et implications: L'étude a conclu que les grands modèles comme ChatGPT et PaLM réussissaient mieux à mémoriser et à reproduire les poèmes. Elle a mis en évidence la manière dont les modèles d'intelligence artificielle formés à partir de données extraites du web peuvent renforcer les préjugés littéraires existants.

Cette étude a non seulement révélé les capacités de l'IA à traiter la poésie, mais a également mis en évidence le risque que les modèles d'IA reflètent et perpétuent les préjugés littéraires existants. 

Si l'humanité commence à se fier à l'IA comme à une sorte d'encyclopédie, pouvons-nous compter sur elle pour représenter les travaux de manière équitable ? En raison des défis inhérents à la représentation équitable et diversifiée des sujets dans les données d'apprentissage, probablement pas.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation