OpenAI hat seinen GPTBot Anfang des Monats vorgestellt, und seitdem sind die größten Websites im Internet zunehmend dazu übergegangen, dem Web Scraper den Zugriff auf ihre Seiten zu verwehren.
KI-Inhaltsdetektor, Originalität.aihat die 1.000 wichtigsten Websites beobachtet, um zu sehen, welche von ihnen Web-Scraper wie GPTBot blockiert haben.
Um GPTBot am Scraping einer Website zu hindern, müssen lediglich zwei Zeilen in die robots.txt-Datei der Website eingefügt werden. Und immer mehr Websites beginnen, genau das zu tun.
Die Zahlen im Originality.ai-Bericht zeigen, dass vor einer Woche 91 Websites GPTBot blockierten. Etwas mehr als eine Woche später ist diese Zahl auf 111 angestiegen, was einem Anstieg von 22%
Ein Zuwachs von 20 Websites hört sich nicht nach viel an, aber wenn man bedenkt, wie viele Daten diese Websites haben und weiterhin produzieren, dann ist das signifikant. Die Top 5 Websites, die GPTBot jetzt blockieren, sind:
amazon.de
quora.de
indeed.com
nytimes.com
shutterstock.com
Die Menge an Daten, die OpenAI zum Trainieren seiner Modelle nur von diesen fünf Websites verwenden kann, ist beträchtlich.
Wenn Sie sich die vollständige Liste der 1.000 Standorte Es ist interessant zu sehen, welche Unternehmen GPTBot blockiert haben und welche vorerst nicht.
Während Shutterstock GPTBot blockiert hat, ist dies bei anderen Websites für Stockfotografie wie iStock nicht der Fall. Wenn es um Stockfotografie geht, muss man sich fragen, ob dieses spezielle KI-schürfende Pferd nicht schon vor einiger Zeit abgehauen ist.
Es macht mehr Sinn, dass Nachrichtenunternehmen wie die New York Times und CNN den Bot blockiert haben. Aber andere Top-Nachrichtenseiten wie Forbes und The Guardian haben sich bisher dafür entschieden, den Scraper nicht zu blockieren.
OpenAI sagte, dass die Erlaubnis für GPTBot, Websites zu scrapen, "KI-Modellen helfen kann, genauer zu werden und ihre allgemeinen Fähigkeiten und Sicherheit zu verbessern". Das Unternehmen sagte auch, dass sein Bot nicht hinter Bezahlschranken blickt oder Websites ansieht, die persönliche Informationen sammeln.
Es könnte sein, dass Websites wie YouTube, X und BBC OpenAI beim Wort nehmen und den potenziellen Wert darin sehen, dass KI-Bots ihre Daten auf verantwortungsvolle Weise nutzen können. Wenn sie sich für den Einsatz von ChatGPT in ihrem Unternehmen entscheiden, würden sie wollen, dass es so gut wie möglich funktioniert.
Diese Unternehmen könnten sich auch des potenziellen Datenverkehrs bewusst werden, der ihnen entgehen könnte, wenn sie den größten KI-Scraper blockieren. Stellen Sie sich vor, was mit ihrem Datenverkehr passieren würde, wenn Websites den Google-Bot aus Prinzip blockieren würden.
Interessant ist auch, dass keine der in der Liste aufgeführten Websites den Bot von Anthropic blockiert hat. Ist die Branche im Allgemeinen der Meinung, dass OpenAI seine Daten anders behandeln wird als Anthropic?
Man sollte meinen, dass ein Unternehmen, das beschließt, KI-Scraper zu blockieren, alle blockieren würde und nicht nur einen.
OpenAI ist an einigen Projekten beteiligt wegweisende AI-Urheberrechtsklagen die möglicherweise einen großen Unterschied zu dieser Liste machen könnten. Es wird interessant sein zu sehen, welche großen Websites sich dazu entschließen, den Bot zu blockieren, und ob einige ihre Entscheidung dazu ändern werden.