En studie fra Reuters Institute for the Study of Journalism ved University of Oxford viser at flere nyhetssider over hele verden blokkerer AI-webcrawlere
Den studieDr. Richard Fletcher, forskningsdirektør ved Reuters Institute for the Study of Journalism, fant at nesten halvparten (48%) av de mest populære nyhetsnettstedene over hele verden nå er utilgjengelige for OpenAIs crawlere, mens Googles AI-crawlere er blokkert av 24% av nettstedene.
Ny @risj_oxford faktaark av meg som spør: Hvor mange nyhetsnettsteder blokkerer generativ AI som ChatGPT og Gemini fra å bruke innholdet deres til å trene modellene sine?
Det kommer an på landet. Det er svært store forskjeller i hvor mange toppnyhetssider som blokkeres, og hvor raskt de startet. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22. februar 2024
AI-crawlere er utviklet for å finkjemme internett for å samle inn data til AI-modeller som ChatGPT og Gemini. Dette sikrer en jevn tilførsel av oppdatert informasjon, noe som er avgjørende for å holde AI-svarene nøyaktige og relevante.
Uten ferske data vil AI-modeller bli låst i tid og ikke kunne tilpasse seg utviklingen i den virkelige verden. Hvis modeller bruker for mye syntetiske og AI-genererte data av dårlig kvalitet i stedet for nye, menneskeproduserte data av høy kvalitet, de kan til og med stå overfor modellkollaps.
Så hvorfor blokkerer nyhetsnettsteder AI-webcrawlere? De er først og fremst bekymret for opphavsrett og rettferdig kompensasjon, frykt for spredning av feilinformasjon og potensielt tap av direkte trafikk til nyhetsnettsteder.
Den New York Times saksøker OpenAI og Microsoft for brudd på opphavsretten, og slutter seg dermed til en rekke forfattere, kunstnere og bedrifter som hevder at AI-utviklere har brukt dataene deres på ulovlig vis.
AI-selskaper forstår problemet. Derfor inngår de lisensavtaler med medieselskaper som OpenAIs avtale med Axel Springer i fjor.
En gigant innen innhold Reddit er det siste selskapet for å friste AI-selskaper med lisensavtaler for innhold i millionklassen.
Viktig innsikt
Her er noen av de viktigste innsiktene fra rapporten:
- Fra slutten av 2023, 48% av fremtredende nyhetsplattformer internasjonalt hadde begrenset tilgang til OpenAIs crawlere, med et mindre antall 24% gjør det samme for Googles AI-crawler.
- Ikke minst, 97% av nettstedene som blokkerte Googles AI, blokkerte også OpenAIs crawlere.
- Sannsynligheten for at nettsteder blokkerte AI-crawlere varierte betydelig fra land til land, med de høyeste tallene observert i USA (79%) og lavest i Mexico og Polen (20%).
- I løpet av 2023 ble det ikke registrert noen tilfeller av nettsteder som reverserte beslutningen om å blokkere AI-crawlere.
- Større nyhetsbyråer viste en noe høyere tilbøyelighet til å blokkere AI-crawlere enn mindre.
- Tendensen til å blokkere varierer mellom ulike typer nyhetsorganisasjoner. Eldre trykte medier (57%) leder an i blokkering, sammenlignet med digitale medier (31%)
Nyhetsselskapene er tydeligvis i ferd med å forsterke forsvaret sitt mot AI-crawlere, og AI-selskapene vil trolig måtte forhandle seg ut for å holde modellene sine overbevisende oppdatert.
Alternativet er dystert. AI-modellenes ytelse vil bli bedre, men kunnskapen vil langsomt bli utdatert til et punkt der den blir utilfredsstillende, unøyaktig, overflødig og irrelevant.