A OpenAI revela discretamente o seu próprio caçador de dados, o GPTBot

7 de agosto de 2023

GPTBot da OpenAI

A OpenAI revelou discretamente o GPTBot, um raspador da Web dedicado à recolha de dados de treino.

Editar: Atualmente, não é claro se o GPTBot é o mesmo bot atualizado que a OpenAI utilizou para recolher dados juntamente com o Common Crawl em 2018/2019 ou se se trata de uma versão nova/evoluída. De qualquer forma, esta é a primeira vez que publicam dados sobre como evitar que o bot extraia dados de sítios Web.

A OpenAI publicou informações sobre o GPTBot na sua página sítio Web aquiincluindo pormenores sobre a forma como os administradores de sítios Web podem impedir que o sistema rastreie e extraia os seus sítios Web. 

Para impedir o GPTBot de rastrear um site, os administradores podem ajustar as configurações no arquivo robots.txt. Este ficheiro, uma ferramenta padrão na gestão de sítios Web que remonta a cerca de 30 anos, indica quais as áreas do sítio Web que estão fora dos limites para os rastreadores. 

Para distinguir brevemente o rastreio do raspagem, os rastreadores percorrem o conteúdo do sítio Web, enquanto os raspadores extraem os dados. Trata-se de um processo com duas partes, embora, normalmente, as duas sejam coletivamente designadas apenas por "scraping".

A OpenAI também revelou o bloco de endereços IP utilizado pelo GPTBot, disponível aquifornecendo outra opção para inibir a atividade do bot. 

Alguns especulam se isto proporciona à OpenAI outra camada de proteção contra alegações de utilização não autorizada de dados.

A OpenAI e outros criadores de IA estão a ser sobrecarregado por processos judiciais relacionados com a forma como utilizaram os dados das pessoas sem a sua autorização. 

Agora, os administradores de sítios Web têm de impedir proactivamente que os seus sítios sejam extraídos para obter dados de treino, colocando o ónus de evitar que os dados do seu sítio acabem em conjuntos de dados de treino. 

É importante notar que o GPTBot não é a única ferramenta do género. A OpenAI utilizou outros conjuntos de dados para treinar os seus modelos, incluindo o conjunto de dados Common Crawl. 

Tal como o GPTBot, o rastreador CCBot também pode ser controlado através da adição de linhas de código específicas no ficheiro robots.txt.

Como impedir que o ChatGPT rastreie os dados do seu site

O OpenAI utilizará o GPTBot para a recolha de dados direccionados, mas pode ser impedido de recolher sítios Web inteiros ou páginas Web específicas. Leia o comunicado da OpenAI documentação completa aqui.

A OpenAI publicou a seguinte informação:

O GPTBot é identificado pelo seu token de agente de utilizador "GPTBot". A cadeia completa de agentes de utilizador associada a ele é: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +https://openai.com/gptbot)".

Ao editar o ficheiro robots.txt, o GPTBot pode ser impedido de aceder a um site inteiro ou a partes seleccionadas. 

Para impedir que o GPTBot aceda a um site, os administradores podem editar o ficheiro robots.txt do seu site da seguinte forma:

Agente do utilizador: GPTBot

Não permitir: /

As partes de sítios Web podem ser autorizadas ou não autorizadas da seguinte forma:

Agente do utilizador: GPTBot

Permitir: /directory-1/

Não permitir: /directory-2/

A OpenAI também tornou públicas as gamas de IP utilizadas pelo GPTBot disponível aqui. Embora apenas uma gama tenha sido listada, outras poderão ser acrescentadas oportunamente.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições