En undersøgelse fra Reuters Institute for the Study of Journalism ved University of Oxford viste, at flere nyhedssider verden over blokerer for AI-webcrawlere.
Den undersøgelseRichard Fletcher, forskningsdirektør ved Reuters Institute for the Study of Journalism, fandt, at næsten halvdelen (48%) af de mest populære nyhedssider på verdensplan nu er utilgængelige for OpenAI's crawlere, mens Googles AI-crawlere er blokeret af 24% af siderne.
Ny @risj_oxford faktaark af mig, der spørger: Hvor mange nyhedswebsteder blokerer generativ AI som ChatGPT og Gemini fra at bruge deres indhold til at træne deres modeller?
Det afhænger af landet. Der er meget stor forskel på, hvor mange topnyhedssider der blokeres, og hvor hurtigt de begyndte. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22. februar 2024
AI-crawlere er designet til at finkæmme internettet for at indsamle data til AI-modeller som ChatGPT og Gemini. Det sikrer en konstant forsyning af opdaterede oplysninger, som er afgørende for at holde AI-svarene nøjagtige og relevante.
Uden nye data vil AI-modeller blive låst fast i tiden og ikke kunne tilpasse sig udviklingen i den virkelige verden. Hvis modeller bruger for mange syntetiske og AI-genererede data af dårlig kvalitet i stedet for nye menneskeligt producerede data af høj kvalitet. kunne endda stå over for modelkollaps.
Så hvorfor blokerer nyhedssider for AI-webcrawlere? De er primært bekymrede over ophavsret og rimelig kompensation, frygt for at sprede misinformation og det potentielle tab af direkte trafik til nyhedssider.
Den New York Times sagsøger OpenAI og Microsoft for krænkelse af ophavsretten og slutter sig til en række forfattere, kunstnere og virksomheder, der hævder, at AI-udviklere har brugt deres data ulovligt.
AI-virksomheder forstår problemet. Det er derfor, de indgår licensaftaler med medievirksomheder som OpenAI's aftale med Axel Springer sidste år.
Gigant af indhold Reddit er den seneste virksomhed til at friste AI-virksomheder med licensaftaler om indhold for flere millioner dollars.
Vigtige indsigter
Her er nogle af de vigtigste indsigter fra rapporten:
- Fra slutningen af 2023, 48% af fremtrædende nyhedsplatforme internationalt havde begrænset adgang til OpenAI's crawlere, med en mindre 24% gøre det samme for Googles AI-crawler.
- Det er bemærkelsesværdigt, 97% af de sider, der blokerede Googles AI, viste sig også at blokere OpenAI's crawlere.
- Sandsynligheden for, at websteder blokerede AI-crawlere, varierede betydeligt fra land til land, med de højeste rater observeret i USA (79%) og de laveste i Mexico og Polen (20%).
- I løbet af 2023 blev der ikke registreret nogen tilfælde, hvor websteder omgjorde deres beslutning om at blokere AI-crawlere.
- Større nyhedsbureauer viste en lidt større tilbøjelighed til at blokere AI-crawlere end mindre.
- Tendensen til at blokere varierer på tværs af forskellige typer af nyhedsorganisationer. Gamle trykte medier (57%) er førende inden for blokering sammenlignet med digitale medier (31%).
Nyhedsvirksomhederne er tydeligvis ved at forstærke deres forsvar mod AI-webcrawlere, og AI-virksomhederne bliver sandsynligvis nødt til at forhandle sig ud af det for at holde deres modeller overbevisende opdaterede.
Alternativet er dystert. AI-modellernes ydeevne vil blive bedre, men viden vil langsomt blive forældet til et punkt med utilfredsstillende hallucinationsrater, unøjagtighed, redundans og irrelevans.