A OpenAI revelou o seu GPTBot no início deste mês e, desde então, os maiores sítios da Internet têm vindo a bloquear cada vez mais o acesso do "web scraper" aos seus sítios.
Detetor de conteúdos com IA, Originalidade.aiO site de Internet da empresa, o GPTBot, tem estado a vigiar os 1.000 principais sítios Web para ver quais deles bloquearam os scrapers da Web como o GPTBot.
Bloquear o GPTBot de fazer scraping de um site é fácil, basta adicionar duas linhas ao ficheiro robots.txt do site. E cada vez mais sites estão a começar a fazer isso mesmo.
Os números reflectidos no relatório da Originality.ai mostram que, há uma semana, 91 sites bloquearam o GPTBot. Pouco mais de uma semana depois, esse número saltou para 111, um aumento de 22%
Um aumento de 20 sites não parece muito, mas quando se considera a quantidade de dados que esses sites têm e continuam a produzir, é significativo. Os 5 principais sites que agora bloqueiam o GPTBot são:
amazon.com
quora.com
indeed.com
nytimes.com
shutterstock.com
A quantidade de dados que ficou fora dos limites para a OpenAI utilizar para treinar os seus modelos apenas a partir desses cinco sítios Web é considerável.
Se olharmos para a lista completa dos 1.000 sítios é interessante observar quais bloquearam o GPTBot e quais decidiram não o fazer, por enquanto.
Embora a Shutterstock tenha bloqueado o GPTBot, outros sites de fotografia de stock, como o iStock, não o fizeram. No que diz respeito à fotografia de stock, temos de nos perguntar se esse cavalo raspador de IA em particular não terá já fugido há algum tempo.
Faz mais sentido que empresas de notícias como o The New York Times e a CNN tenham bloqueado o bot. Mas outros sites de notícias de topo, como a Forbes e o The Guardian, optaram até agora por não bloquear o scraper.
A OpenAI afirmou que permitir que o GPTBot raspe sites "pode ajudar os modelos de IA a tornarem-se mais precisos e melhorar as suas capacidades gerais e segurança". A empresa também afirmou que o seu bot não espreita por detrás de paywalls nem consulta sítios que recolhem informações pessoais.
É possível que sites como o YouTube, X e BBC acreditem na palavra da OpenAI e vejam o valor potencial de permitir que os bots de IA utilizem os seus dados de forma responsável. Se decidissem utilizar o ChatGPT na sua atividade, gostariam que funcionasse o melhor possível.
Estas empresas podem também aperceber-se do potencial tráfego que podem perder se bloquearem o maior scraper de IA. Imagine o que aconteceria ao seu tráfego se os sítios Web decidissem bloquear o bot da Google por princípio.
Também é interessante notar que nenhum dos sites da lista bloqueou o bot da Anthropic. Será que a indústria em geral acha que a OpenAI vai tratar os seus dados de forma diferente da Anthropic?
Seria de esperar que, se uma empresa tomasse a decisão de bloquear os scrapers de IA, bloqueasse todos eles, e não apenas um.
A OpenAI está envolvida em algumas processos judiciais de referência sobre direitos de autor em matéria de IA que pode fazer uma grande diferença nesta lista. Será interessante ver quais os grandes sítios que decidem bloquear o bot e até mesmo se alguns mudam a sua decisão de o fazer.