De plus en plus de sites web de premier plan bloquent GPTBot

1er septembre 2023

OpenAI a dévoilé son GPTBot au début du mois, et depuis lors, les plus grands sites Internet ont pris des mesures de plus en plus nombreuses pour bloquer l'accès de ce scraper à leurs sites.

Détecteur de contenu AI, Originalité.aiLa Commission européenne a suivi les 1 000 premiers sites web pour voir lesquels ont bloqué les racleurs de sites web tels que GPTBot.

Il est facile d'empêcher GPTBot de gratter un site web en ajoutant deux lignes au fichier robots.txt du site web. De plus en plus de sites commencent à le faire. 

Les chiffres figurant dans le rapport d'Originality.ai montrent qu'il y a une semaine, 91 sites ont bloqué GPTBot. Un peu plus d'une semaine plus tard, ce chiffre est passé à 111, soit une augmentation de 22%

Une augmentation de 20 sites ne semble pas énorme, mais si l'on considère la quantité de données que ces sites Web ont et continuent de produire, c'est significatif. Les 5 principaux sites qui bloquent désormais GPTBot sont les suivants :

amazon.com
quora.com
en effet.com
nytimes.com
shutterstock.com

La quantité de données que l'OpenAI ne peut plus utiliser pour entraîner ses modèles à partir de ces seuls cinq sites web est considérable.

Si vous regardez la liste complète des 1 000 sites il est intéressant de noter quels sont ceux qui ont bloqué GPTBot et ceux qui ont décidé de ne pas le faire, pour l'instant.

Si Shutterstock a bloqué GPTBot, ce n'est pas le cas d'autres sites de photographie d'archives comme iStock. En matière de photographie d'archives, on peut se demander si ce cheval de trait de l'IA ne s'est pas déjà éclipsé depuis un certain temps.

Il est plus logique que des entreprises d'information comme le New York Times et CNN aient bloqué le robot. Mais d'autres sites d'information de premier plan, comme Forbes et The Guardian, ont jusqu'à présent choisi de ne pas bloquer le scraper.

OpenAI a déclaré que le fait de permettre à GPTBot de gratter des sites "peut aider les modèles d'IA à devenir plus précis et améliorer leurs capacités générales et leur sécurité". L'entreprise a également précisé que son robot ne regardait pas derrière les paywalls ni les sites qui collectent des informations personnelles.

Il se peut que des sites comme YouTube, X et la BBC prennent l'OpenAI au mot et voient la valeur potentielle de permettre aux robots d'IA d'utiliser leurs données de manière responsable. S'ils décident d'utiliser ChatGPT dans leur entreprise, ils voudront qu'il fonctionne aussi bien que possible.

Ces entreprises peuvent également se rendre compte du trafic potentiel qu'elles pourraient perdre si elles bloquaient le plus grand scraper d'IA. Imaginez ce qu'il adviendrait de leur trafic si les sites web décidaient de bloquer le robot de Google par principe. 

Il est également intéressant de noter qu'aucun des sites figurant sur la liste n'a bloqué le robot d'Anthropic. L'industrie en général pense-t-elle qu'OpenAI traitera ses données différemment d'Anthropic ? 

On pourrait penser que si une entreprise décide de bloquer les scrapers d'IA, elle les bloquera tous, et pas seulement un seul.

L'OpenAI est impliquée dans certaines Poursuites historiques en matière de droits d'auteur dans le domaine de l'IA qui pourrait potentiellement faire une grande différence dans cette liste. Il sera intéressant de voir quels grands sites décident de bloquer le robot et même si certains reviennent sur leur décision.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation