O The Guardian juntou-se a uma lista crescente de sítios Web que bloquearam o GPTBot da OpenAI de recolher dados dos seus sítios Web.
O jornal diário britânico anunciou a sua decisão no seu sítio Web na passada sexta-feira e junta-se à CNN, à Reuters, ao Washington Post, à Bloomberg e ao New York Times em bloqueando o GPTBot. Embora não tenha dado uma explicação completa das razões subjacentes à decisão, mencionou algumas preocupações comuns do sector.
Citou a atual acções judiciais por direitos de autor trazidos por autores como Sarah Silverman e os apelos dos editores de livros britânicos para protegerem o seu trabalho de ser explorado pela IA.
O Guardian reconheceu que as ferramentas de IA generativa, como o ChatGPT, estão a fazer coisas impressionantes, mas algumas das semânticas do anúncio revelam uma visão menos entusiasta da forma como as empresas de IA estão a fazer o seu trabalho.
O anúncio refere que a ChatGPT foi treinada com base em grandes quantidades de dados "extraídos" da Internet e que actuou para impedir a empresa de utilizar software que "recolhe" os seus dados.
Ainda não gritou diretamente "Parem os ladrões!", mas a mensagem é bastante clara.
Um porta-voz da editora do Guardian e do Observer afirmou que "a recolha de propriedade intelectual do sítio Web do Guardian para fins comerciais é, e sempre foi, contrária aos nossos termos de serviço".
Num sinal de que pode estar aberto a permitir a recolha de dados no futuro, o porta-voz disse: "A equipa de licenciamento comercial do The Guardian tem muitas relações comerciais mutuamente benéficas com programadores de todo o mundo e espera construir mais relações desse tipo no futuro".
Curiosamente, o The Guardian também se mostrou preocupado com o potencial que a IA generativa tem para produzir desinformação. Não explicou como é que esta preocupação estava relacionada com a sua decisão de bloquear o GPTBot, mas como editor de notícias, esta é uma área de preocupação óbvia.
Para além das questões éticas e de direitos de autor, é possível que os servidores do sítio Web do The Guardian tenham enfrentado problemas semelhantes aos do X.
No início deste ano, Elon Musk afirmou que uma parte significativa da carga que os servidores X estavam a sofrer provinha de um multidão de bots raspadores de IA. Não os bloqueou de imediato e também tenciona utilizar tweets públicos para treinar o seu modelo xAI.
Quando um robô de IA visita um sítio Web e encontra um ficheiro robot.txt a "bloqueá-lo", não o raspa por cortesia, e não porque não o possa fazer.
Quando as questões dos direitos de autor estiverem resolvidas na lei, pergunto-me durante quanto tempo a cortesia continuará a vencer o apetite insaciável da IA por dados.