A Google afirma que todos os dados disponíveis publicamente na Internet podem ser utilizados para treinar os seus produtos de IA.
O Google política de privacidade actualizada afirma agora que "a Google utiliza as informações para melhorar os nossos serviços e desenvolver novos produtos, funcionalidades e tecnologias que beneficiem os nossos utilizadores e o público". Continua a dizer que utiliza informações publicamente disponíveis para "ajudar a treinar os modelos de IA da Google e a criar produtos e funcionalidades como o Google Translate, o Bard e as capacidades de IA na nuvem".
A versão anterior da política referia-se ao facto de a Google utilizar os dados para treinar "modelos linguísticos", ao passo que agora se refere a "modelos de IA", o que alarga o seu âmbito.
A definição vaga de "informação" e os objectivos alargados para a formação utilizando estes dados parecem indicar que, se publicar algo online, espera que o Google o recolha e adicione aos seus dados de formação.
Compreendemos que, se publicarmos um comentário no Facebook, tweetarmos algo ou escrevermos uma crítica na Amazon, isso estará à disposição do público. Não se espera que seja privado. Mas sente-se confortável com o facto de as suas palavras serem utilizadas para treinar um modelo de IA?
A alteração da redação da política pode também ser um sinal da intenção da Google de aumentar os seus esforços de recolha de dados. E o ritmo a que a Google e outras empresas de IA estão a extrair dados publicamente disponíveis está a ter impactos devastadores em várias plataformas.
O Twitter limitou recentemente o acesso O Twitter também retirou o acesso gratuito à sua API num esforço para travar os "scrapers" e, consequentemente, quebrou muitos serviços de terceiros que dependem da API. O Twitter também retirou o acesso gratuito à sua API num esforço para travar os scrapers e, consequentemente, quebrou muitos serviços de terceiros que dependem da API.
O Reddit também não passou incólume a esta corrida aos dados. Também ele retirou o acesso gratuito à API do Reddit, em parte devido à exploração por parte dos "scrapers". A reação dos moderadores do Reddit, que utilizam a API, provocou o encerramento de partes da Internet.
Centenas dos maiores subreddits foram tornados privados ou invisíveis por protesto dos moderadores do subreddit. Os proprietários do Reddit estão a dar ultimatos pouco subtis aos moderadores para que voltem a abrir os subreddits, mas o protesto continua.
A ironia é que o Google também está a sofrer com isso. Anexar "Reddit" a uma consulta de pesquisa do Google tornou-se uma forma popular de obter resultados muito específicos para uma consulta. O bloqueio do Reddit tornou inacessíveis muitos desses resultados de pesquisa.
A maioria das plataformas tem políticas de termos de serviço que proíbem a recolha de dados, mas violar os termos de serviço não equivale necessariamente a violar a lei. Enquanto tentam resolver o problema, certifique-se de que não se importa que o Google e outros utilizem os seus dados para treinar os seus modelos de IA antes de publicar qualquer coisa online.