A OpenAI revelou discretamente o GPTBot, um raspador da Web dedicado à recolha de dados de treino.
Editar: Atualmente, não é claro se o GPTBot é o mesmo bot atualizado que a OpenAI utilizou para recolher dados juntamente com o Common Crawl em 2018/2019 ou se se trata de uma versão nova/evoluída. De qualquer forma, esta é a primeira vez que publicam dados sobre como evitar que o bot extraia dados de sítios Web.
A OpenAI publicou informações sobre o GPTBot na sua página sítio Web aquiincluindo pormenores sobre a forma como os administradores de sítios Web podem impedir que o sistema rastreie e extraia os seus sítios Web.
Para impedir o GPTBot de rastrear um site, os administradores podem ajustar as configurações no arquivo robots.txt. Este ficheiro, uma ferramenta padrão na gestão de sítios Web que remonta a cerca de 30 anos, indica quais as áreas do sítio Web que estão fora dos limites para os rastreadores.
Para distinguir brevemente o rastreio do raspagem, os rastreadores percorrem o conteúdo do sítio Web, enquanto os raspadores extraem os dados. Trata-se de um processo com duas partes, embora, normalmente, as duas sejam coletivamente designadas apenas por "scraping".
A OpenAI também revelou o bloco de endereços IP utilizado pelo GPTBot, disponível aquifornecendo outra opção para inibir a atividade do bot.
Alguns especulam se isto proporciona à OpenAI outra camada de proteção contra alegações de utilização não autorizada de dados.
A OpenAI e outros criadores de IA estão a ser sobrecarregado por processos judiciais relacionados com a forma como utilizaram os dados das pessoas sem a sua autorização.
Agora, os administradores de sítios Web têm de impedir proactivamente que os seus sítios sejam extraídos para obter dados de treino, colocando o ónus de evitar que os dados do seu sítio acabem em conjuntos de dados de treino.
É importante notar que o GPTBot não é a única ferramenta do género. A OpenAI utilizou outros conjuntos de dados para treinar os seus modelos, incluindo o conjunto de dados Common Crawl.
Tal como o GPTBot, o rastreador CCBot também pode ser controlado através da adição de linhas de código específicas no ficheiro robots.txt.
Como impedir que o ChatGPT rastreie os dados do seu site
O OpenAI utilizará o GPTBot para a recolha de dados direccionados, mas pode ser impedido de recolher sítios Web inteiros ou páginas Web específicas. Leia o comunicado da OpenAI documentação completa aqui.
A OpenAI publicou a seguinte informação:
O GPTBot é identificado pelo seu token de agente de utilizador "GPTBot". A cadeia completa de agentes de utilizador associada a ele é: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +https://openai.com/gptbot)".
Ao editar o ficheiro robots.txt, o GPTBot pode ser impedido de aceder a um site inteiro ou a partes seleccionadas.
Para impedir que o GPTBot aceda a um site, os administradores podem editar o ficheiro robots.txt do seu site da seguinte forma:
Agente do utilizador: GPTBot
Não permitir: /
As partes de sítios Web podem ser autorizadas ou não autorizadas da seguinte forma:
Agente do utilizador: GPTBot
Permitir: /directory-1/
Não permitir: /directory-2/
A OpenAI também tornou públicas as gamas de IP utilizadas pelo GPTBot disponível aqui. Embora apenas uma gama tenha sido listada, outras poderão ser acrescentadas oportunamente.