Flere top-hjemmesider blokerer GPTBot

1. september 2023

OpenAI afslørede sin GPTBot tidligere på måneden, og siden da har internettets største sider i stigende grad forsøgt at blokere webskraberen fra at få adgang til deres sider.

AI-indholdsdetektor, Originalitet.aihar holdt øje med de 1.000 største hjemmesider for at se, hvilke af dem der har blokeret for webscrapere som GPTBot.

Det er nemt at forhindre GPTBot i at scrape en hjemmeside ved at tilføje to linjer til hjemmesidens robots.txt-fil. Og flere og flere hjemmesider begynder at gøre netop det. 

Tallene i Originality.ai-rapporten viser, at for en uge siden blokerede 91 websteder GPTBot. Lidt over en uge senere er dette tal steget til 111, en stigning på 22%

En stigning på 20 websteder lyder ikke af meget, men når man tænker på den mængde data, disse websteder har og fortsat producerer, så er det betydeligt. De 5 største websteder, der nu blokerer GPTBot, er:

amazon.com
quora.com
indeed.com
nytimes.com
shutterstock.com

Mængden af data, der er blevet forbudt for OpenAI at bruge til at træne sine modeller fra bare disse fem hjemmesider, er betydelig.

Hvis du kigger på Den komplette liste over 1.000 sites Det er interessant at se, hvem der har blokeret GPTBot, og hvem der har besluttet ikke at gøre det indtil videre.

Shutterstock har blokeret GPTBot, men det har andre stockfoto-sider som iStock ikke. Når det drejer sig om stockfotografering, må man spørge sig selv, om den særlige AI-skrabende hest ikke allerede er stukket af for længe siden.

Det giver mere mening, at nyhedsvirksomheder som The New York Times og CNN har blokeret botten. Men andre topnyhedssider som Forbes og The Guardian har indtil videre valgt ikke at blokere scraperen.

OpenAI har sagt, at det at lade GPTBot scrape sider "kan hjælpe AI-modeller med at blive mere præcise og forbedre deres generelle evner og sikkerhed." Virksomheden sagde også, at dens bot ikke kigger bag betalingsmure eller ser på websteder, der indsamler personlige oplysninger.

Det kan være, at sider som YouTube, X og BBC tager OpenAI på ordet og ser den potentielle værdi i at lade AI-bots bruge deres data på en ansvarlig måde. Hvis de beslutter sig for at bruge ChatGPT i deres forretning, vil de gerne have, at det fungerer så godt som muligt.

Disse virksomheder er måske også klar over den potentielle trafik, de kan gå glip af, hvis de blokerer den største AI-skraber. Forestil dig, hvad der ville ske med deres trafik, hvis hjemmesider besluttede at blokere Googles bot af princip. 

Det er også interessant at bemærke, at ingen af siderne på listen har blokeret Anthropics bot. Føler branchen generelt, at OpenAI vil behandle sine data anderledes end Anthropic? 

Man skulle tro, at hvis en virksomhed tog en beslutning om at blokere AI-scrapere, ville den blokere dem alle og ikke kun én.

OpenAI er involveret i nogle skelsættende retssager om AI-ophavsret der potentielt kan gøre en stor forskel for denne liste. Det bliver interessant at se, hvilke store sider der beslutter sig for at blokere bot'en, og om der er nogle, der ændrer deres beslutning.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser