Uit een onderzoek van het Reuters Institute for the Study of Journalism aan de Universiteit van Oxford blijkt dat wereldwijd meer nieuwssites AI-webcrawlers blokkeren.
De onderzoekvan Dr. Richard Fletcher, directeur onderzoek aan het Reuters Institute for the Study of Journalism, ontdekte dat bijna de helft (48%) van de populairste nieuwssites wereldwijd nu ontoegankelijk zijn voor de crawlers van OpenAI, waarbij de AI-crawlers van Google door 24% van de sites worden geblokkeerd.
Nieuw @risj_oxford factsheet van mij met de vraag: Hoeveel nieuwswebsites blokkeren generatieve AI zoals ChatGPT en Gemini om hun inhoud te gebruiken om hun modellen te trainen?
Het hangt af van het land. Er zijn grote verschillen in het aantal topnieuwssites dat wordt geblokkeerd en hoe snel ze daarmee zijn begonnen. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22 februari 2024
AI crawlers zijn ontworpen om het internet uit te kammen om gegevens te verzamelen voor AI-modellen zoals ChatGPT en Gemini. Dit zorgt voor een constante aanvoer van up-to-date informatie, wat cruciaal is om AI-reacties accuraat en relevant te houden.
Zonder nieuwe gegevens zullen AI-modellen opgesloten raken in de tijd en niet in staat zijn om zich aan te passen aan de ontwikkelingen in de echte wereld. Als modellen gebruiken te veel synthetische en AI-gegenereerde gegevens van slechte kwaliteit in plaats van nieuwe, hoogwaardige, door mensen geproduceerde gegevens. kan zelfs model instorten.
Waarom blokkeren nieuwssites AI-webcrawlers? Ze maken zich vooral zorgen over auteursrecht en eerlijke compensatie, angst voor het verspreiden van verkeerde informatie en het mogelijke verlies van direct verkeer naar nieuwssites.
De New York Times klaagt OpenAI en Microsoft aan voor het schenden van auteursrechten, zich aansluitend bij een groot aantal auteurs, artiesten en bedrijven die beweren dat AI-ontwikkelaars hun gegevens onrechtmatig hebben gebruikt.
AI-bedrijven begrijpen het probleem. Daarom sluiten ze licentieovereenkomsten met mediabedrijven zoals OpenAI's deal met Axel Springer vorig jaar.
Grootmacht op het gebied van inhoud Reddit is de nieuwste bedrijf om AI-bedrijven te verleiden met licentieovereenkomsten voor content ter waarde van miljoenen dollars.
Belangrijkste inzichten
Hier zijn enkele belangrijke inzichten uit het rapport:
- Vanaf eind 2023, 48% van prominente internationale nieuwsplatforms had de toegang tot OpenAI's crawlers beperkt, met een mindere 24% hetzelfde doen voor de AI-crawler van Google.
- Met name, 97% van de sites die Google's AI blokkeren, bleken ook de crawlers van OpenAI te blokkeren.
- De waarschijnlijkheid dat websites AI-crawlers blokkeren varieerde aanzienlijk per land, waarbij de hoogste percentages werden waargenomen in de VS (79%) en het laagst in Mexico en Polen (20%).
- In heel 2023 zijn er geen gevallen geregistreerd van websites die hun beslissing om AI-crawlers te blokkeren terugdraaien.
- Grotere nieuwszenders bleken iets meer geneigd AI-crawlers te blokkeren dan kleinere.
- De neiging om te blokkeren verschilt per type nieuwsorganisatie. Oude print-outlets (57%) zijn koploper op het gebied van blokkeren, vergeleken met digitaal geboren outlets (31%).
Het is duidelijk dat nieuwsbedrijven hun verdediging tegen AI-webcrawlers aan het versterken zijn en AI-bedrijven zullen zich waarschijnlijk een weg naar buiten moeten banen om hun modellen overtuigend bijgewerkt te houden.
Het alternatief is rampzalig. De prestaties van AI-modellen zullen verbeteren, maar kennis zal langzaam verouderen tot het punt van onbevredigende hallucinaties, onnauwkeurigheid, redundantie en irrelevantie.