En studie från Reuters Institute for the Study of Journalism vid University of Oxford visar att allt fler nyhetssajter i världen blockerar AI-webbcrawlers
Den studiesom författats av Dr. Richard Fletcher, forskningschef vid Reuters Institute for the Study of Journalism, visade att nästan hälften (48%) av de mest populära nyhetssajterna i världen nu är otillgängliga för OpenAI:s sökrobotar, medan Googles AI-sökrobotar blockeras av 24% av sajterna.
Nya @risj_oxford faktablad av mig som frågar: Hur många nyhetswebbplatser blockerar generativ AI som ChatGPT och Gemini från att använda deras innehåll för att träna sina modeller?
Det beror på vilket land det gäller. Det finns mycket stora skillnader i hur många toppnyhetssajter som blockeras och hur snabbt de började blockeras. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22 februari 2024
AI-crawlers är utformade för att finkamma internet och samla in data till AI-modeller som ChatGPT och Gemini. Detta säkerställer en stadig tillgång till uppdaterad information, vilket är avgörande för att hålla AI-svaren korrekta och relevanta.
Utan nya data kommer AI-modellerna att bli låsta i tiden och inte kunna anpassa sig till den verkliga världens framsteg. Om modeller konsumerar för mycket syntetisk och AI-genererad data av dålig kvalitet snarare än ny mänskligt producerad data av hög kvalitet, de kan till och med hotas av modellkollaps.
Så varför blockerar nyhetssajter AI-webbcrawlers? De är främst oroade över upphovsrätt och rättvis ersättning, rädsla för att sprida felaktig information och den potentiella förlusten av direkttrafik till nyhetssajter.
Den New York Times stämmer OpenAI och Microsoft för upphovsrättsintrång och ansluter sig därmed till en mängd författare, konstnärer och företag som hävdar att AI-utvecklare använt deras data på ett olagligt sätt.
AI-företagen förstår problemet. Det är därför de sluter licensavtal med medieföretag som OpenAI:s avtal med Axel Springer förra året.
Gigant inom innehåll Reddit är det senaste företag att locka AI-företag med licensavtal för innehåll i mångmiljonklassen.
Viktiga insikter
Här är några viktiga insikter från rapporten:
- Från och med slutet av 2023, 48% av framstående nyhetsplattformar internationellt hade begränsad tillgång till OpenAI:s sökrobotar, med en mindre andel 24% och gör samma sak för Googles AI-crawler.
- Det är anmärkningsvärt, 97% av de webbplatser som blockerar Googles AI visade sig också blockera OpenAI:s sökrobotar.
- Sannolikheten för att webbplatser blockerar AI:s sökrobotar varierade avsevärt mellan olika länder, med de högsta siffrorna i USA (79%) och lägst i Mexiko och Polen (20%).
- Under hela 2023 registrerades inga fall där webbplatser återkallade sitt beslut att blockera AI-crawlers.
- Större nyhetsbyråer uppvisade en något högre benägenhet att blockera AI-crawlers än mindre.
- Benägenheten att blockera varierar mellan olika typer av nyhetsorganisationer. Äldre tryckta medier (57%) leder i blockering, jämfört med digitalt födda medier (31%)
Nyhetsbolagen förstärker uppenbarligen sitt försvar mot AI-webbcrawlers, och AI-bolagen kommer förmodligen att behöva förhandla sig ut för att hålla sina modeller övertygande uppdaterade.
Alternativet är förfärligt. AI-modellernas prestanda kommer att förbättras, men kunskapen kommer långsamt att bli föråldrad till den grad att hallucinationsfrekvensen, felaktigheten, redundansen och irrelevansen blir otillfredsställande.