Volgens onderzoek blokkeren grote nieuwssites steeds vaker AI-webcrawlers

25 februari 2024

AI-webcrawler

Uit een onderzoek van het Reuters Institute for the Study of Journalism aan de Universiteit van Oxford blijkt dat wereldwijd meer nieuwssites AI-webcrawlers blokkeren.

De onderzoekvan Dr. Richard Fletcher, directeur onderzoek aan het Reuters Institute for the Study of Journalism, ontdekte dat bijna de helft (48%) van de populairste nieuwssites wereldwijd nu ontoegankelijk zijn voor de crawlers van OpenAI, waarbij de AI-crawlers van Google door 24% van de sites worden geblokkeerd.


AI crawlers zijn ontworpen om het internet uit te kammen om gegevens te verzamelen voor AI-modellen zoals ChatGPT en Gemini. Dit zorgt voor een constante aanvoer van up-to-date informatie, wat cruciaal is om AI-reacties accuraat en relevant te houden.

Zonder nieuwe gegevens zullen AI-modellen opgesloten raken in de tijd en niet in staat zijn om zich aan te passen aan de ontwikkelingen in de echte wereld. Als modellen gebruiken te veel synthetische en AI-gegenereerde gegevens van slechte kwaliteit in plaats van nieuwe, hoogwaardige, door mensen geproduceerde gegevens. kan zelfs model instorten

Waarom blokkeren nieuwssites AI-webcrawlers? Ze maken zich vooral zorgen over auteursrecht en eerlijke compensatie, angst voor het verspreiden van verkeerde informatie en het mogelijke verlies van direct verkeer naar nieuwssites. 

De New York Times klaagt OpenAI en Microsoft aan voor het schenden van auteursrechten, zich aansluitend bij een groot aantal auteurs, artiesten en bedrijven die beweren dat AI-ontwikkelaars hun gegevens onrechtmatig hebben gebruikt.

AI-bedrijven begrijpen het probleem. Daarom sluiten ze licentieovereenkomsten met mediabedrijven zoals OpenAI's deal met Axel Springer vorig jaar.

Grootmacht op het gebied van inhoud Reddit is de nieuwste bedrijf om AI-bedrijven te verleiden met licentieovereenkomsten voor content ter waarde van miljoenen dollars. 

Belangrijkste inzichten

Hier zijn enkele belangrijke inzichten uit het rapport:

  • Vanaf eind 2023, 48% van prominente internationale nieuwsplatforms had de toegang tot OpenAI's crawlers beperkt, met een mindere 24% hetzelfde doen voor de AI-crawler van Google.
  • Met name, 97% van de sites die Google's AI blokkeren, bleken ook de crawlers van OpenAI te blokkeren.
  • De waarschijnlijkheid dat websites AI-crawlers blokkeren varieerde aanzienlijk per land, waarbij de hoogste percentages werden waargenomen in de VS (79%) en het laagst in Mexico en Polen (20%).
  • In heel 2023 zijn er geen gevallen geregistreerd van websites die hun beslissing om AI-crawlers te blokkeren terugdraaien.
  • Grotere nieuwszenders bleken iets meer geneigd AI-crawlers te blokkeren dan kleinere.
  • De neiging om te blokkeren verschilt per type nieuwsorganisatie. Oude print-outlets (57%) zijn koploper op het gebied van blokkeren, vergeleken met digitaal geboren outlets (31%).

Het is duidelijk dat nieuwsbedrijven hun verdediging tegen AI-webcrawlers aan het versterken zijn en AI-bedrijven zullen zich waarschijnlijk een weg naar buiten moeten banen om hun modellen overtuigend bijgewerkt te houden. 

Het alternatief is rampzalig. De prestaties van AI-modellen zullen verbeteren, maar kennis zal langzaam verouderen tot het punt van onbevredigende hallucinaties, onnauwkeurigheid, redundantie en irrelevantie.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden