OpenAI onthulde zijn GPTBot eerder deze maand en sindsdien hebben de grootste sites op het internet steeds meer stappen ondernomen om de toegang van de webscraper tot hun sites te blokkeren.
AI-inhoudsdetector, Originaliteit.aiheeft de top 1000 websites in de gaten gehouden om te zien welke daarvan web scrapers zoals GPTBot hebben geblokkeerd.
Het blokkeren van GPTBot voor het schrapen van een website is eenvoudig te doen door twee regels toe te voegen aan het robots.txt-bestand van de website. En steeds meer sites beginnen dat te doen.
De cijfers in het Originality.ai rapport laten zien dat een week geleden 91 sites GPTBot blokkeerden. Iets meer dan een week later is dat aantal gestegen naar 111, een toename van 22%
Een toename van 20 sites klinkt niet als veel, maar als je bedenkt hoeveel data deze websites hebben en blijven produceren, is het significant. De top 5 sites die GPTBot nu blokkeren zijn:
amazon.com
quora.nl
inderdaad.com
nytimes.com
shutterstock.com
De hoeveelheid gegevens die OpenAI niet meer kan gebruiken om zijn modellen van alleen die vijf websites te trainen, is aanzienlijk.
Als je kijkt naar de volledige lijst van 1.000 sites Het is interessant om te zien welke GPTBot hebben geblokkeerd en welke dat voorlopig niet hebben gedaan.
Shutterstock heeft GPTBot geblokkeerd, maar andere stockfotografiesites zoals iStock niet. Als het om stockfotografie gaat, moet je je afvragen of dat AI-schrapende paard niet al een tijdje geleden op de vlucht is geslagen.
Het is logischer dat nieuwsbedrijven zoals The New York Times en CNN de bot hebben geblokkeerd. Maar andere topnieuwssites zoals Forbes en The Guardian hebben er tot nu toe voor gekozen om de scraper niet te blokkeren.
OpenAI heeft gezegd dat het toestaan van GPTBot om sites te scrapen "AI-modellen kan helpen nauwkeuriger te worden en hun algemene mogelijkheden en veiligheid te verbeteren." Het bedrijf zei ook dat zijn bot niet achter paywalls gluurt of naar sites kijkt die persoonlijke informatie verzamelen.
Het kan zijn dat sites als YouTube, X en BBC OpenAI op zijn woord geloven en de potentiële waarde zien in het toestaan van AI-bots om hun gegevens op een verantwoorde manier te gebruiken. Als ze besluiten om ChatGPT in hun bedrijf te gebruiken, zouden ze willen dat het zo goed mogelijk werkt.
Deze bedrijven realiseren zich misschien ook welk potentieel verkeer ze kunnen mislopen als ze de grootste AI-scraper blokkeren. Stel je eens voor wat er met hun verkeer zou gebeuren als websites uit principe zouden besluiten om Google's bot te blokkeren.
Het is ook interessant om te zien dat geen van de sites op de lijst de bot van Anthropic heeft geblokkeerd. Heeft de industrie in het algemeen het gevoel dat OpenAI zijn gegevens anders zal behandelen dan Anthropic?
Je zou denken dat als een bedrijf besluit om AI-scrapers te blokkeren, het ze allemaal zou blokkeren, en niet slechts één.
OpenAI is betrokken bij een aantal mijlpaal rechtszaken over auteursrecht AI die mogelijk een groot verschil kunnen maken voor deze lijst. Het zal interessant zijn om te zien welke grote sites besluiten om de bot te blokkeren en zelfs of we zien dat sommige hun beslissing om dit te doen veranderen.