A OpenAI revela discretamente o seu próprio caçador de dados, o GPTBot

A OpenAI revelou discretamente o GPTBot, um raspador da Web dedicado à recolha de dados de treino.

Editar: Atualmente, não é claro se o GPTBot é o mesmo bot atualizado que a OpenAI utilizou para recolher dados juntamente com o Common Crawl em 2018/2019 ou se se trata de uma versão nova/evoluída. De qualquer forma, esta é a primeira vez que publicam dados sobre como evitar que o bot extraia dados de sítios Web.

A OpenAI publicou informações sobre o GPTBot na sua página sítio Web aquiincluindo pormenores sobre a forma como os administradores de sítios Web podem impedir que o sistema rastreie e extraia os seus sítios Web.

Para impedir o GPTBot de rastrear um site, os administradores podem ajustar as configurações no arquivo robots.txt. Este ficheiro, uma ferramenta padrão na gestão de sítios Web que remonta a cerca de 30 anos, indica quais as áreas do sítio Web que estão fora dos limites para os rastreadores.

Para distinguir brevemente o rastreio do raspagem, os rastreadores percorrem o conteúdo do sítio Web, enquanto os raspadores extraem os dados. Trata-se de um processo com duas partes, embora, normalmente, as duas sejam coletivamente designadas apenas por "scraping".

A OpenAI também revelou o bloco de endereços IP utilizado pelo GPTBot, disponível aquifornecendo outra opção para inibir a atividade do bot.

Alguns especulam se isto proporciona à OpenAI outra camada de proteção contra alegações de utilização não autorizada de dados.

A OpenAI e outros criadores de IA estão a ser sobrecarregado por processos judiciais relacionados com a forma como utilizaram os dados das pessoas sem a sua autorização.

Agora, os administradores de sítios Web têm de impedir proactivamente que os seus sítios sejam extraídos para obter dados de treino, colocando o ónus de evitar que os dados do seu sítio acabem em conjuntos de dados de treino.

É importante notar que o GPTBot não é a única ferramenta do género. A OpenAI utilizou outros conjuntos de dados para treinar os seus modelos, incluindo o conjunto de dados Common Crawl.

Tal como o GPTBot, o rastreador CCBot também pode ser controlado através da adição de linhas de código específicas no ficheiro robots.txt.

Como impedir que o ChatGPT rastreie os dados do seu site

O OpenAI utilizará o GPTBot para a recolha de dados direccionados, mas pode ser impedido de recolher sítios Web inteiros ou páginas Web específicas. Leia o comunicado da OpenAI documentação completa aqui.

A OpenAI publicou a seguinte informação:

O GPTBot é identificado pelo seu token de agente de utilizador "GPTBot". A cadeia completa de agentes de utilizador associada a ele é: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +https://openai.com/gptbot)".

Ao editar o ficheiro robots.txt, o GPTBot pode ser impedido de aceder a um site inteiro ou a partes seleccionadas.

Para impedir que o GPTBot aceda a um site, os administradores podem editar o ficheiro robots.txt do seu site da seguinte forma:

Agente do utilizador: GPTBot

Não permitir: /

As partes de sítios Web podem ser autorizadas ou não autorizadas da seguinte forma:

Agente do utilizador: GPTBot

Permitir: /directory-1/

Não permitir: /directory-2/

A OpenAI também tornou públicas as gamas de IP utilizadas pelo GPTBot disponível aqui. Embora apenas uma gama tenha sido listada, outras poderão ser acrescentadas oportunamente.

A OpenAI revela discretamente o seu próprio caçador de dados, o GPTBot

Como impedir que o ChatGPT rastreie os dados do seu site

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

A OpenAI revela discretamente o seu próprio caçador de dados, o GPTBot

Como impedir que o ChatGPT rastreie os dados do seu site

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI