OpenAI avslørte sin GPTBot tidligere denne måneden, og siden da har de største nettstedene på internett i økende grad forsøkt å blokkere nettskraperen fra å få tilgang til nettstedene deres.
AI-innholdsdetektor, Originalitet.aihar fulgt med på de 1000 største nettstedene for å se hvilke av dem som har blokkert webskrapere som GPTBot.
Det er enkelt å blokkere GPTBot fra å skrape et nettsted ved å legge til to linjer i nettstedets robots.txt-fil. Og flere og flere nettsteder begynner å gjøre nettopp det.
Tallene i Originality.ai-rapporten viser at 91 nettsteder blokkerte GPTBot for en uke siden. Litt over en uke senere har tallet steget til 111, en økning på 22%
En økning på 20 nettsteder høres ikke mye ut, men når du tenker på mengden data disse nettstedene har og fortsetter å produsere, er det betydelig. De fem største nettstedene som nå blokkerer GPTBot er:
amazon.com
quora.com
indeed.com
nytimes.com
shutterstock.com
Bare fra disse fem nettstedene har OpenAI fått tilgang til en betydelig mengde data som kan brukes til å trene opp modellene sine.
Hvis du ser på den komplette listen over 1 000 nettsteder er det interessant å se hvilke som har blokkert GPTBot, og hvilke som har bestemt seg for ikke å gjøre det, inntil videre.
Shutterstock har blokkert GPTBot, men det har ikke andre arkivfoto-nettsteder som iStock. Når det gjelder arkivfotografering, kan man lure på om ikke den AI-skrapende hesten allerede har stukket av for en stund siden.
Det gir mer mening at nyhetsselskaper som The New York Times og CNN har blokkert boten. Men andre toppnyhetssider som Forbes og The Guardian har så langt valgt å ikke blokkere skraperen.
OpenAI har sagt at det å la GPTBot skrape nettsteder "kan hjelpe AI-modeller med å bli mer nøyaktige og forbedre deres generelle evner og sikkerhet." Selskapet sa også at boten ikke kikker bak betalingsmurer eller ser på nettsteder som samler inn personlig informasjon.
Det kan være at nettsteder som YouTube, X og BBC tar OpenAI på ordet og ser den potensielle verdien i å la AI-roboter bruke dataene deres på en ansvarlig måte. Hvis de bestemmer seg for å bruke ChatGPT i sin virksomhet, vil de gjerne at det skal fungere så godt som mulig.
Disse selskapene innser kanskje også den potensielle trafikken de kan gå glipp av hvis de blokkerer den største AI-skraperen. Tenk deg hva som ville skje med trafikken deres hvis nettsteder bestemte seg for å blokkere Googles bot av prinsipp.
Det er også interessant å merke seg at ingen av nettstedene på listen har blokkert Anthropics bot. Føler bransjen generelt at OpenAI vil behandle dataene sine annerledes enn Anthropic vil?
Man skulle tro at hvis et selskap bestemte seg for å blokkere AI-skrapere, ville det blokkere alle, og ikke bare én.
OpenAI er involvert i noen banebrytende opphavsrettssaker om kunstig intelligens som potensielt kan utgjøre en stor forskjell for denne listen. Det blir interessant å se hvilke store nettsteder som bestemmer seg for å blokkere boten, og til og med om vi ser at noen endrer beslutningen om å gjøre det.