The Guardian har anslutit sig till en växande lista över webbplatser som har blockerat OpenAI:s GPTBot från att skrota deras webbplatser.
Den brittiska dagstidningen meddelade sitt beslut på sin webbplats i fredags och ansluter sig till CNN, Reuters, Washington Post, Bloomberg och New York Times i blockering av GPTBot. Även om det inte gav en fullständig förklaring till orsakerna bakom beslutet nämnde det några vanliga branschproblem.
Man hänvisade till den pågående stämningar om upphovsrätt av författare som Sarah Silverman och uppmaningarna från brittiska bokförläggare att skydda sina verk från att utnyttjas av AI.
The Guardian erkände att generativa AI-verktyg som ChatGPT gör en del imponerande saker, men en del av semantiken i tillkännagivandet avslöjar en mindre entusiastisk syn på hur AI-företag bedriver sin verksamhet.
I tillkännagivandet noterades att ChatGPT utbildats på stora mängder data som "samlats in" från internet och att man agerat för att hindra företaget från att använda programvara som "skördar" dess data.
Den har inte gått ut direkt och ropat "Stoppa tjuven!" men budskapet är ganska tydligt.
En talesman för utgivaren av Guardian och Observer sade: "Att skrota immateriella rättigheter från Guardians webbplats för kommersiella ändamål är, och har alltid varit, i strid med våra användarvillkor."
Som ett tecken på att man kan vara öppen för att tillåta dataskrapning i framtiden sa talespersonen: "The Guardians kommersiella licensieringsteam har många ömsesidigt fördelaktiga kommersiella relationer med utvecklare runt om i världen och ser fram emot att bygga ytterligare sådana relationer i framtiden."
Intressant nog noterade The Guardian också oro över den potential som generativ AI har för att producera desinformation. Det förklarade inte hur denna oro relaterade till sitt beslut att blockera GPTBot, men som nyhetsutgivare är detta ett uppenbart problemområde.
Bortsett från etiska och upphovsrättsliga frågor kan det också vara så att servrarna på The Guardians webbplats har haft liknande problem som X hade.
Tidigare i år sa Elon Musk att en betydande del av den belastning som X-servrarna upplevde kom från en Mängder av AI-skrapande robotar. Han har inte blockerat dem helt och hållet och tänker också använda offentliga tweets för att träna sin xAI-modell.
När en AI-bot besöker en webbplats och stöter på en robot.txt-fil som "blockerar" den, skrapar den inte webbplatsen av artighet, inte för att den inte kan göra det.
När upphovsrättsfrågorna väl har avgjorts undrar jag hur länge artighet kommer att fortsätta att trumfa AI:s omättliga aptit på data.