Um estudo do Instituto Reuters para o Estudo do Jornalismo da Universidade de Oxford concluiu que cada vez mais sítios noticiosos em todo o mundo estão a bloquear os rastreadores da Web com IA
O estudoO estudo, da autoria do Dr. Richard Fletcher, Diretor de Investigação do Instituto Reuters para o Estudo do Jornalismo, concluiu que quase metade (48%) dos sítios de notícias mais populares em todo o mundo estão agora inacessíveis aos rastreadores da OpenAI, estando os rastreadores da IA do Google bloqueados em 24% dos sítios.
Novo @risj_oxford ficha informativa da minha autoria que pergunta Quantos sítios Web de notícias impedem a IA generativa, como o ChatGPT e o Gemini, de utilizar o seu conteúdo para treinar os seus modelos?
Depende do país. Existem diferenças muito grandes no número de sítios de notícias de topo que estão a ser bloqueados e na rapidez com que começaram. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22 de fevereiro de 2024
Os rastreadores de IA são concebidos para percorrer a Internet para recolher dados para modelos de IA como o ChatGPT e o Gemini. Isto garante um fornecimento constante de informações actualizadas, essencial para manter as respostas da IA precisas e relevantes.
Sem dados actualizados, os modelos de IA ficarão bloqueados no tempo e incapazes de se adaptarem aos avanços do mundo real. Se os mOs modelos consomem demasiados dados de má qualidade, sintéticos e gerados por IA, em vez de dados novos, de alta qualidade e produzidos por seres humanos, eles pode mesmo enfrentar o colapso do modelo.
Então, porque é que os sites de notícias estão a bloquear os rastreadores web de IA? Estão sobretudo preocupados com os direitos de autor e a compensação justa, com o receio de espalharem desinformação e com a potencial perda de tráfego direto para os sites de notícias.
O O New York Times está a processar a OpenAI e a Microsoft por violação de direitos de autor, juntando-se a uma série de autores, artistas e empresas que alegam que os criadores de IA utilizaram os seus dados de forma ilegal.
As empresas de IA compreendem o problema. É por isso que estão a fazer acordos de licenciamento com empresas de comunicação social como a O acordo da OpenAI com a Axel Springer no ano passado.
Gigante do conteúdo O Reddit é o mais recente para tentar as empresas de IA com acordos multimilionários de licenciamento de conteúdos.
Principais informações
Eis algumas das principais conclusões do relatório:
- A partir de finais de 2023, 48% de plataformas noticiosas de renome internacional tinham restringido o acesso aos rastreadores da OpenAI, com um número menor de 24% fazendo o mesmo com o rastreador de IA do Google.
- Nomeadamente, 97% dos sítios que bloqueiam a IA da Google também bloquearam os rastreadores da OpenAI.
- A probabilidade de os sítios Web bloquearem os rastreadores da IA variou significativamente consoante o país, com as taxas mais elevadas observadas nos EUA (79%) e os mais baixos no México e na Polónia (20%).
- Ao longo de 2023, não foram registados casos de sítios Web que tenham revertido a sua decisão de bloquear os rastreadores de IA.
- Os maiores meios de comunicação social demonstraram uma propensão ligeiramente superior para bloquear os rastreadores de IA do que os mais pequenos.
- A tendência para bloquear varia consoante os diferentes tipos de organizações noticiosas. Os meios de comunicação impressos tradicionais (57%) lideram o bloqueio, em comparação com os meios de comunicação digitais (31%)
As empresas de notícias estão evidentemente a fortificar as suas defesas contra os rastreadores web de IA, e as empresas de IA terão provavelmente de negociar a sua saída para manterem os seus modelos actualizados de forma convincente.
A alternativa é terrível. O desempenho dos modelos de IA melhorará, mas o conhecimento tornar-se-á lentamente desatualizado até ao ponto de apresentar taxas de alucinação insatisfatórias, imprecisão, redundância e irrelevância.