Selon une étude, les grands sites d'information bloquent de plus en plus les robots d'exploration du web par l'IA

25 février 2024

Moteur de recherche de l'IA sur le web

Une étude de l'Institut Reuters pour l'étude du journalisme de l'Université d'Oxford a révélé qu'un nombre croissant de sites d'information dans le monde bloquent les robots d'exploration du web par l'IA.

Les étudeRichard Fletcher, directeur de recherche à l'Institut Reuters pour l'étude du journalisme, a constaté que près de la moitié (48%) des sites d'information les plus populaires dans le monde sont désormais inaccessibles aux robots d'OpenAI, les robots d'IA de Google étant bloqués par 24% des sites.


Les crawlers d'IA sont conçus pour parcourir l'internet afin de collecter des données pour les modèles d'IA tels que ChatGPT et Gemini. Ils garantissent ainsi un approvisionnement régulier en informations actualisées, essentielles pour que les réponses de l'IA restent précises et pertinentes.

Sans données fraîches, les modèles d'IA seront bloqués dans le temps et incapables de s'adapter aux progrès du monde réel. Si les mLes modèles consomment trop de données de mauvaise qualité, synthétiques et générées par l'IA plutôt que des données nouvelles, de haute qualité et produites par l'homme. pourrait même être confronté à l'effondrement du modèle

Alors, pourquoi les sites d'information bloquent-ils les robots d'indexation de l'IA ? Ils sont principalement préoccupés par les droits d'auteur et les compensations équitables, par la crainte de la diffusion de fausses informations et par la perte potentielle de trafic direct vers les sites d'information. 

Les Le New York Times poursuit OpenAI et Microsoft pour violation du droit d'auteur, rejoignant ainsi une série d'auteurs, d'artistes et d'entreprises qui allèguent que les développeurs d'IA ont utilisé leurs données de manière illégale.

Les entreprises spécialisées dans l'IA ont compris le problème. C'est pourquoi elles concluent des accords de licence avec des sociétés de médias telles que L'accord d'OpenAI avec Axel Springer l'année dernière.

Le géant du contenu Reddit est le dernier en date pour tenter les entreprises du secteur de l'IA avec des contrats de licence de contenu de plusieurs millions de dollars. 

Aperçu de la situation

Voici quelques éléments clés du rapport :

  • À partir de la fin de l'année 2023, 48% des plateformes d'information de premier plan au niveau international ont restreint l'accès aux robots de l'OpenAI, et un nombre moindre de plateformes d'information de premier plan au niveau international ont restreint l'accès aux robots de l'OpenAI. 24% faire de même pour le robot d'indexation de Google.
  • Notamment, 97% des sites qui bloquent l'IA de Google bloquent également les robots d'exploration d'OpenAI.
  • La probabilité que les sites web bloquent les robots d'indexation de l'IA varie considérablement d'un pays à l'autre, les taux les plus élevés étant observés aux États-Unis (79%) et les plus faibles au Mexique et en Pologne (20%).
  • Tout au long de l'année 2023, aucun cas de site web revenant sur sa décision de bloquer les robots d'indexation de l'IA n'a été enregistré.
  • Les grands organes de presse ont montré une propension légèrement plus élevée à bloquer les robots d'exploration de l'IA que les petits.
  • La tendance au blocage varie selon le type d'entreprise de presse. Les organes de presse traditionnels (57%) sont en tête du blocage, par rapport aux organes nés du numérique (31%).

Les sociétés d'information renforcent manifestement leurs défenses contre les robots d'indexation de l'IA, et les sociétés d'IA devront probablement négocier leur sortie pour que leurs modèles soient mis à jour de manière convaincante. 

L'alternative est désastreuse. Les performances des modèles d'IA s'amélioreront, mais les connaissances deviendront lentement obsolètes au point d'atteindre des taux d'hallucination insatisfaisants, d'être inexactes, redondantes et non pertinentes.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation