OpenAI presentó discretamente GPTBot, un raspador web dedicado a recopilar datos de entrenamiento.
Editar: Actualmente no está claro si GPTBot es el mismo/actualizado bot que OpenAI utilizó para raspar datos junto con Common Crawl en 2018/2019 o si se trata de una versión nueva/evolucionada. En cualquier caso, esta es la primera vez que publican datos sobre cómo evitar que rastree datos de sitios web.
OpenAI ha publicado información sobre GPTBot en su sitio webincluyendo detalles sobre cómo los administradores de sitios web pueden evitar que rastree y escarbe sus sitios web.
Para impedir que GPTBot rastree un sitio web, los administradores pueden ajustar la configuración del archivo robots.txt. Este archivo, una herramienta estándar en la gestión de sitios web que data de hace unos 30 años, indica qué áreas del sitio web están fuera de los límites de los rastreadores.
Para distinguir brevemente el rastreo del scraping, los rastreadores recorren el contenido del sitio web, mientras que los scrapers extraen los datos. Es un proceso que consta de dos partes, aunque normalmente ambas se denominan colectivamente "scraping".
OpenAI también reveló el bloque de direcciones IP utilizado por GPTBot, disponible aquí, proporcionando otra opción para inhibir la actividad del bot.
Algunos especulan si esto proporciona a OpenAI otra capa de protección contra acusaciones de uso no permitido de datos.
OpenAI y otros desarrolladores de IA se abrumado por las demandas en relación con la forma en que utilizaron los datos de las personas sin su permiso.
Ahora, los administradores de los sitios web deben evitar de forma proactiva que sus sitios sean rastreados para obtener datos de entrenamiento, lo que les obliga a impedir que los datos de sus sitios acaben en los conjuntos de datos de entrenamiento.
Cabe señalar que GPTBot no es la única herramienta de este tipo. OpenAI ha utilizado otros conjuntos de datos para entrenar sus modelos, incluido el conjunto de datos Common Crawl.
Al igual que GPTBot, el rastreador CCBot también puede controlarse añadiendo líneas de código específicas en el archivo robots.txt.
Cómo evitar que ChatGPT rastree los datos de su sitio web
OpenAI utilizará GPTBot para el rastreo selectivo de datos, pero se puede impedir que rastree sitios web enteros o páginas web específicas. Lea el documentación completa aquí.
OpenAI publicó la siguiente información:
GPTBot se identifica por su token de agente de usuario "GPTBot". La cadena completa de agente de usuario asociada a él es: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)".
Mediante la edición del archivo robots.txt, se puede bloquear el acceso de GPTBot a un sitio web completo o a partes seleccionadas.
Para impedir que GPTBot acceda a un sitio, los administradores pueden editar el archivo robots.txt de su sitio web como se indica a continuación:
Agente de usuario: GPTBot
No permitir: /
Se pueden permitir/prohibir partes de sitios web de la siguiente manera:
Agente de usuario: GPTBot
Permitir: /directorio-1/
No permitir: /directorio-2/
OpenAI también ha hecho públicos los rangos de IP utilizados por GPTBot disponible aquí. Aunque sólo se ha incluido una gama, es posible que se añadan más a su debido tiempo.