OpenAI enthüllte diskret GPTBot, einen speziellen Web Scraper zum Sammeln von Trainingsdaten.
bearbeiten: Es ist derzeit unklar, ob es sich bei GPTBot um denselben/aktualisierten Bot handelt, den OpenAI 2018/2019 zum Scrapen von Daten neben Common Crawl verwendet hat, oder ob es sich um eine neue/entwickelte Version handelt. In jedem Fall ist dies das erste Mal, dass sie Daten darüber veröffentlicht haben, wie man verhindern kann, dass er Website-Daten ausliest.
OpenAI hat Informationen über GPTBot auf seiner Website veröffentlicht Website hierund wie Website-Administratoren das Crawlen und Scrapen ihrer Websites verhindern können.
Um GPTBot am Crawlen einer Website zu hindern, können Administratoren die Einstellungen in der robots.txt-Datei anpassen. Diese Datei, ein Standardwerkzeug für die Website-Verwaltung, das seit etwa 30 Jahren verwendet wird, gibt an, welche Bereiche der Website für Crawler gesperrt sind.
Um kurz zwischen Crawling und Scraping abzugrenzen: Crawler durchforsten den Inhalt einer Website, während Scraper die Daten extrahieren. Es handelt sich um einen zweiteiligen Prozess, auch wenn beide normalerweise einfach als "Scraping" bezeichnet werden.
OpenAI enthüllte auch den von GPTBot verwendeten IP-Adressblock, hier erhältlichund bietet damit eine weitere Möglichkeit, die Aktivität des Bots zu unterbinden.
Einige spekulieren, ob dies OpenAI einen weiteren Schutz gegen den Vorwurf der unerlaubten Datennutzung bietet.
OpenAI und andere KI-Entwickler werden von Prozessen überrollt wie sie die Daten von Menschen ohne deren Zustimmung verwendet haben.
Jetzt müssen Website-Administratoren proaktiv verhindern, dass ihre Websites für Trainingsdaten gescraped werden, so dass es in ihrer Verantwortung liegt, zu verhindern, dass die Daten ihrer Website in Trainingsdatensätzen landen.
Es ist erwähnenswert, dass GPTBot nicht das einzige Tool dieser Art ist. OpenAI hat andere Datensätze zum Trainieren seiner Modelle verwendet, darunter den Common Crawl-Datensatz.
Wie GPTBot kann auch der CCBot-Crawler durch Hinzufügen bestimmter Codezeilen in der robots.txt-Datei gesteuert werden.
Wie Sie verhindern, dass ChatGPT die Daten Ihrer Website crawlt
OpenAI wird GPTBot für gezieltes Daten-Scraping verwenden, aber es kann verhindert werden, dass ganze Websites oder bestimmte Webseiten gescraped werden. Lesen Sie OpenAIs vollständige Dokumentation hier.
OpenAI hat die folgenden Informationen veröffentlicht:
GPTBot wird durch sein User-Agent-Token "GPTBot" identifiziert. Der vollständige User-Agent-String, der ihm zugeordnet ist, lautet: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, wie Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)".
Durch die Bearbeitung der Datei robots.txt kann GPTBot der Zugriff auf eine ganze Website oder auf ausgewählte Teile davon verwehrt werden.
Um GPTBot am Zugriff auf eine Website zu hindern, können Administratoren die robots.txt-Datei ihrer Website wie folgt bearbeiten:
Benutzer-Agent: GPTBot
Nicht zulassen: /
Teile von Websites können wie folgt zugelassen/abgeschaltet werden:
Benutzer-Agent: GPTBot
Erlauben: /Verzeichnis-1/
Nicht zulassen: /Verzeichnis-2/
OpenAI hat auch die von GPTBot verwendeten IP-Bereiche veröffentlicht hier erhältlich. Es wurde zwar nur eine Produktreihe aufgelistet, doch können zu gegebener Zeit weitere hinzukommen.