Le New York Times (NYT) a intenté une action en justice contre OpenAI et Microsoft aujourd'hui, affirmant que les entreprises ont violé ses droits d'auteur en utilisant son contenu pour entraîner leurs modèles d'intelligence artificielle.
Ni Microsoft ni OpenAI ne souhaitent confirmer exactement quelles données ont été utilisées pour entraîner leurs modèles, mais il apparaît de plus en plus clairement qu'il s'agit d'à peu près tout ce qui est disponible sur l'internet.
Le Times a contacté Microsoft et OpenAI en avril pour discuter de ses préoccupations concernant l'utilisation de son contenu. Les documents juridiques indiquent qu'en dépit de ces efforts, ils n'ont pas réussi à trouver une solution. En août, le Times a déclaré qu'il était envisager d'intenter une action en justice et c'est enfin chose faite.
Le dépôt affirme que les modèles d'IA qu'OpenAI et Microsoft ont formés sur le contenu du NYT "privent le Times d'abonnements, de licences, de publicités et de revenus d'affiliation".
Lorsque les utilisateurs posent à ChatGPT ou à Copilot une question sur un sujet traité par le Times, l'action en justice affirme que ces modèles "génèrent des résultats qui récitent mot pour mot le contenu du Times, le résument étroitement et imitent son style expressif", souvent sans lien avec l'article original.
Lorsque les utilisateurs obtiennent des réponses sur ChatGPT sans cliquer sur le site web du Times, l'entreprise perd des revenus publicitaires et d'abonnement.
L'entreprise de médias possède également des sites d'évaluation tels que Wirecutter. Le Times affirme que le contenu des critiques est souvent reproduit par des chatbots d'intelligence artificielle, sans les liens de référence. Cela prive le Times des revenus de ses affiliés.
L'action en justice affirme également que la tendance à l'hallucination des modèles d'IA tels que ChatGPT nuit à sa réputation. Il arrive que des réponses factuellement erronées soient générées à la suite d'hallucinations du modèle, mais qu'elles soient tout de même attribuées au Times.
Mais a-t-il fait des copies ?
Les grandes entreprises spécialisées dans l'IA semblent toutes engagées dans des procès sur les droits d'auteur en ce moment. OpenAI, Méta, Microsoft, Diffusion stableLes auteurs, les artistes et d'autres créateurs sont actuellement poursuivis en justice.
L'argument général des défendeurs est que les modèles d'IA ne font pas de copies des données sur lesquelles ils sont entraînés et que l'utilisation de données protégées par le droit d'auteur à des fins d'entraînement relève du principe de l'usage loyal.
Les exemples de l'action en justice intentée par le NYT rendent ce point difficile à défendre. Voici un exemple d'interaction ChatGPT qui reproduit mot pour mot le contenu du Times.
Le dossier juridique contient de nombreux exemples d'articles cités mot pour mot par ChatGPT et Bing Chat / Copilot.
Quels sont les enjeux ?
L'action en justice du Times ne mentionne pas de chiffre précis, mais affirme que Microsoft et OpenAI devraient être tenus "responsables des milliards de dollars de dommages statutaires et réels qu'ils doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times".
Elle indique également qu'outre l'arrêt de l'utilisation du contenu du NYT, "tous les modèles GPT ou autres modèles LLM et ensembles d'entraînement qui intègrent des œuvres du Times" doivent être détruits.
Si ce procès va à l'encontre d'OpenAI et de Microsoft, il créera un précédent qui amènera très certainement d'autres éditeurs de médias à s'aligner sur leurs avocats.
Les entreprises devraient supprimer leurs modèles et les former à nouveau, mais cette fois sans le contenu incriminé.
Pour le secteur du journalisme, c'est la pérennité d'un journalisme de qualité qui est en jeu. S'ils perdent leur procès, comment les éditeurs de presse comme le Times pourront-ils financer la rédaction d'articles qui demandent souvent aux journalistes des centaines d'heures de travail ?
Aucune de ces perspectives n'est attrayante. Au début du mois, OpenAI a conclu un accord de licence avec l'éditeur de presse Axel Springer d'inclure son contenu d'actualités dans les réponses du ChatGPT. Il semble inévitable que nos informations soient générées et diffusées par l'IA.
De nombreux journaux qui n'ont pas réussi à passer de la presse écrite à une présence en ligne ont disparu. Le New York Times a réussi cette transition. Comment cet éditeur de presse et d'autres vont-ils gérer la prochaine phase du journalisme à l'ère de l'IA ?
Espérons que nous pourrons conserver à la fois nos modèles d'IA et nos reporters humains.