Une étude de l'Institut Reuters pour l'étude du journalisme de l'Université d'Oxford a révélé qu'un nombre croissant de sites d'information dans le monde bloquent les robots d'exploration du web par l'IA.
Les étudeRichard Fletcher, directeur de recherche à l'Institut Reuters pour l'étude du journalisme, a constaté que près de la moitié (48%) des sites d'information les plus populaires dans le monde sont désormais inaccessibles aux robots d'OpenAI, les robots d'IA de Google étant bloqués par 24% des sites.
Nouveau @risj_oxford Une fiche d'information que j'ai rédigée et qui pose la question suivante : Combien de sites d'information empêchent l'IA générative comme ChatGPT et Gemini d'utiliser leur contenu pour entraîner leurs modèles ?
Cela dépend du pays. Il existe de très grandes différences dans le nombre de sites d'information de premier plan qui sont bloqués et dans la rapidité avec laquelle ils l'ont été. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22 février 2024
Les crawlers d'IA sont conçus pour parcourir l'internet afin de collecter des données pour les modèles d'IA tels que ChatGPT et Gemini. Ils garantissent ainsi un approvisionnement régulier en informations actualisées, essentielles pour que les réponses de l'IA restent précises et pertinentes.
Sans données fraîches, les modèles d'IA seront bloqués dans le temps et incapables de s'adapter aux progrès du monde réel. Si les mLes modèles consomment trop de données de mauvaise qualité, synthétiques et générées par l'IA plutôt que des données nouvelles, de haute qualité et produites par l'homme. pourrait même être confronté à l'effondrement du modèle.
Alors, pourquoi les sites d'information bloquent-ils les robots d'indexation de l'IA ? Ils sont principalement préoccupés par les droits d'auteur et les compensations équitables, par la crainte de la diffusion de fausses informations et par la perte potentielle de trafic direct vers les sites d'information.
Les Le New York Times poursuit OpenAI et Microsoft pour violation du droit d'auteur, rejoignant ainsi une série d'auteurs, d'artistes et d'entreprises qui allèguent que les développeurs d'IA ont utilisé leurs données de manière illégale.
Les entreprises spécialisées dans l'IA ont compris le problème. C'est pourquoi elles concluent des accords de licence avec des sociétés de médias telles que L'accord d'OpenAI avec Axel Springer l'année dernière.
Le géant du contenu Reddit est le dernier en date pour tenter les entreprises du secteur de l'IA avec des contrats de licence de contenu de plusieurs millions de dollars.
Aperçu de la situation
Voici quelques éléments clés du rapport :
- À partir de la fin de l'année 2023, 48% des plateformes d'information de premier plan au niveau international ont restreint l'accès aux robots de l'OpenAI, et un nombre moindre de plateformes d'information de premier plan au niveau international ont restreint l'accès aux robots de l'OpenAI. 24% faire de même pour le robot d'indexation de Google.
- Notamment, 97% des sites qui bloquent l'IA de Google bloquent également les robots d'exploration d'OpenAI.
- La probabilité que les sites web bloquent les robots d'indexation de l'IA varie considérablement d'un pays à l'autre, les taux les plus élevés étant observés aux États-Unis (79%) et les plus faibles au Mexique et en Pologne (20%).
- Tout au long de l'année 2023, aucun cas de site web revenant sur sa décision de bloquer les robots d'indexation de l'IA n'a été enregistré.
- Les grands organes de presse ont montré une propension légèrement plus élevée à bloquer les robots d'exploration de l'IA que les petits.
- La tendance au blocage varie selon le type d'entreprise de presse. Les organes de presse traditionnels (57%) sont en tête du blocage, par rapport aux organes nés du numérique (31%).
Les sociétés d'information renforcent manifestement leurs défenses contre les robots d'indexation de l'IA, et les sociétés d'IA devront probablement négocier leur sortie pour que leurs modèles soient mis à jour de manière convaincante.
L'alternative est désastreuse. Les performances des modèles d'IA s'amélioreront, mais les connaissances deviendront lentement obsolètes au point d'atteindre des taux d'hallucination insatisfaisants, d'être inexactes, redondantes et non pertinentes.