Store nyhedssider blokerer i stigende grad AI-webcrawlere, siger undersøgelse

25. februar 2024

AI-webcrawler

En undersøgelse fra Reuters Institute for the Study of Journalism ved University of Oxford viste, at flere nyhedssider verden over blokerer for AI-webcrawlere.

Den undersøgelseRichard Fletcher, forskningsdirektør ved Reuters Institute for the Study of Journalism, fandt, at næsten halvdelen (48%) af de mest populære nyhedssider på verdensplan nu er utilgængelige for OpenAI's crawlere, mens Googles AI-crawlere er blokeret af 24% af siderne.


AI-crawlere er designet til at finkæmme internettet for at indsamle data til AI-modeller som ChatGPT og Gemini. Det sikrer en konstant forsyning af opdaterede oplysninger, som er afgørende for at holde AI-svarene nøjagtige og relevante.

Uden nye data vil AI-modeller blive låst fast i tiden og ikke kunne tilpasse sig udviklingen i den virkelige verden. Hvis modeller bruger for mange syntetiske og AI-genererede data af dårlig kvalitet i stedet for nye menneskeligt producerede data af høj kvalitet. kunne endda stå over for modelkollaps

Så hvorfor blokerer nyhedssider for AI-webcrawlere? De er primært bekymrede over ophavsret og rimelig kompensation, frygt for at sprede misinformation og det potentielle tab af direkte trafik til nyhedssider. 

Den New York Times sagsøger OpenAI og Microsoft for krænkelse af ophavsretten og slutter sig til en række forfattere, kunstnere og virksomheder, der hævder, at AI-udviklere har brugt deres data ulovligt.

AI-virksomheder forstår problemet. Det er derfor, de indgår licensaftaler med medievirksomheder som OpenAI's aftale med Axel Springer sidste år.

Gigant af indhold Reddit er den seneste virksomhed til at friste AI-virksomheder med licensaftaler om indhold for flere millioner dollars. 

Vigtige indsigter

Her er nogle af de vigtigste indsigter fra rapporten:

  • Fra slutningen af 2023, 48% af fremtrædende nyhedsplatforme internationalt havde begrænset adgang til OpenAI's crawlere, med en mindre 24% gøre det samme for Googles AI-crawler.
  • Det er bemærkelsesværdigt, 97% af de sider, der blokerede Googles AI, viste sig også at blokere OpenAI's crawlere.
  • Sandsynligheden for, at websteder blokerede AI-crawlere, varierede betydeligt fra land til land, med de højeste rater observeret i USA (79%) og de laveste i Mexico og Polen (20%).
  • I løbet af 2023 blev der ikke registreret nogen tilfælde, hvor websteder omgjorde deres beslutning om at blokere AI-crawlere.
  • Større nyhedsbureauer viste en lidt større tilbøjelighed til at blokere AI-crawlere end mindre.
  • Tendensen til at blokere varierer på tværs af forskellige typer af nyhedsorganisationer. Gamle trykte medier (57%) er førende inden for blokering sammenlignet med digitale medier (31%).

Nyhedsvirksomhederne er tydeligvis ved at forstærke deres forsvar mod AI-webcrawlere, og AI-virksomhederne bliver sandsynligvis nødt til at forhandle sig ud af det for at holde deres modeller overbevisende opdaterede. 

Alternativet er dystert. AI-modellernes ydeevne vil blive bedre, men viden vil langsomt blive forældet til et punkt med utilfredsstillende hallucinationsrater, unøjagtighed, redundans og irrelevans.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser