OpenAI a confirmé un accord de licence avec l'Associated Press (AP) pour entraîner ses modèles d'IA à l'aide de ses archives d'articles de presse.
L'accord prévoit essentiellement qu'AP fournira à OpenAI l'accès à son trésor d'histoires textuelles pour l'entraînement de l'IA. En retour, OpenAI étendra sa technologie à AP, ce qui leur permettra d'intégrer l'IA générative dans leurs flux de travail.
OpenAI aura le droit d'extraire des données des archives d'articles d'AP remontant à 1985.
"L'IA générative est un espace qui évolue rapidement et qui a d'énormes implications pour l'industrie de l'information. Nous sommes heureux qu'OpenAI reconnaisse que les contenus d'information basés sur des faits et non partisans sont essentiels à cette technologie en évolution, et qu'ils respectent la valeur de notre propriété intellectuelle". a déclaré Kristin HeitmannAP, premier vice-président et directeur des recettes.
La pratique consistant à utiliser des données Internet publiques pour former des systèmes d'intelligence artificielle devient un sujet de discorde. Cela devrait accroître la popularité de ces types d'accords privés et sponsorisés.
Les grands modèles de langage (LLM) qui alimentent les chatbots d'OpenAI, de Google, etc., ont été formés à partir d'une quantité colossale de données recueillies dans des sources Internet accessibles au public.
Il s'agit notamment de contenus de tiers tels que des articles de presse, des entrées de Wikipédia et des commentaires provenant de médias sociaux et de blogs, tous pris sans l'autorisation explicite de leurs auteurs ou sans qu'ils en soient conscients.
Cela n'est pas sans poser des problèmes juridiques et éthiques, car il est peu probable que toutes ces données soient collectées légalement. En tout cas, les données d'entraînement à l'IA faussent le sens des termes "ouvert" et "accessible au public".
Andres Sawicki, professeur de droit de la propriété intellectuelle à l'université de Miami, a déclaré : "Les ensembles de données comprennent de nombreux contenus protégés par des droits d'auteur. Les détenteurs des droits d'auteur n'approuvent pas ces exploitations. Il n'est pas difficile d'imaginer que d'autres accords comme celui d'AP seront conclus entre des entreprises technologiques et des producteurs de contenu dans le but de constituer une "base de données propre". Le problème est que les ensembles de données nécessaires pour former les modèles sont si importants que je doute qu'il soit possible d'obtenir l'autorisation d'un nombre suffisant de propriétaires pour rendre la technologie pratique".
Cette semaine, la Commission fédérale du commerce des États-Unis (FTC) a lancé des enquêtes sur les pratiques d'OpenAI en matière d'utilisation des données dans la formation des modèles. La FTC a demandé à OpenAI de lui fournir des documents afin de comprendre ses stratégies et d'identifier les cas de non-conformité.
OpenAI et AP ont exprimé des sentiments positifs à l'égard de ce partenariat, déclarant qu'ils "croient en la création et l'utilisation responsables de ces systèmes d'IA".