Der Guardian reiht sich in eine wachsende Liste von Websites ein, die dem GPTBot von OpenAI das Scraping ihrer Websites untersagt haben.
Die britische Tageszeitung gab seine Entscheidung bekannt auf ihrer Website und schließt sich damit CNN, Reuters, der Washington Post, Bloomberg und der New York Times an. GPTBot blockieren. Die Gründe für diese Entscheidung wurden zwar nicht ausführlich erläutert, aber es wurden einige allgemeine Bedenken der Branche erwähnt.
Sie zitierte die laufenden Urheberrechtsklagen von Autoren wie Sarah Silverman und die Forderungen britischer Buchverleger, ihre Werke vor der Ausbeutung durch KI zu schützen.
Der Guardian erkannte an, dass generative KI-Tools wie ChatGPT einige beeindruckende Dinge tun, aber einige der Formulierungen in der Ankündigung verraten eine weniger enthusiastische Sichtweise auf die Art und Weise, wie KI-Unternehmen ihr Geschäft betreiben.
In der Ankündigung heißt es, dass ChatGPT auf riesige Datenmengen aus dem Internet trainiert wurde und dass das Unternehmen keine Software mehr verwenden darf, die seine Daten "erntet".
Sie hat zwar nicht direkt gerufen: "Haltet den Dieb!", aber die Botschaft ist ziemlich klar.
Ein Sprecher des Herausgebers von Guardian und Observer sagte: "Das Auslesen von geistigem Eigentum von der Website des Guardian zu kommerziellen Zwecken ist und war schon immer ein Verstoß gegen unsere Nutzungsbedingungen."
Als Zeichen dafür, dass das Unternehmen offen dafür sein könnte, in Zukunft Data Scraping zu erlauben, sagte der Sprecher: "Das kommerzielle Lizenzierungsteam des Guardian unterhält viele für beide Seiten vorteilhafte Geschäftsbeziehungen mit Entwicklern auf der ganzen Welt und freut sich darauf, in Zukunft weitere solche Beziehungen aufzubauen."
Interessanterweise äußerte The Guardian auch Bedenken hinsichtlich des Potenzials generativer KI, Desinformationen zu produzieren. Der Guardian hat nicht erklärt, inwiefern diese Bedenken mit seiner Entscheidung, GPTBot zu blockieren, zusammenhängen, aber als Nachrichtenverlag ist dies ein offensichtlicher Bereich, der Anlass zur Sorge gibt.
Abgesehen von ethischen und urheberrechtlichen Fragen könnte es auch sein, dass die Server der Guardian-Website mit ähnlichen Problemen zu kämpfen haben wie die von X.
Anfang dieses Jahres erklärte Elon Musk, dass ein erheblicher Teil der Last, die die X-Server zu bewältigen hatten, von einem eine Vielzahl von AI Scraper Bots. Er hat sie nicht gänzlich blockiert und beabsichtigt auch, öffentliche Tweets zum Training seines xAI-Modells zu verwenden.
Wenn ein KI-Bot eine Website besucht und auf eine robot.txt-Datei stößt, die ihn "blockiert", dann scrapt er die Website nicht aus Höflichkeit, sondern weil er dazu nicht in der Lage ist.
Sobald die Urheberrechtsfragen rechtlich geklärt sind, frage ich mich, wie lange die Höflichkeit den unersättlichen Datenhunger der KI noch übertrumpfen wird.