A Google vai utilizar tudo o que publicar online para treinar a sua IA

A Google afirma que todos os dados disponíveis publicamente na Internet podem ser utilizados para treinar os seus produtos de IA.

O Google política de privacidade actualizada afirma agora que "a Google utiliza as informações para melhorar os nossos serviços e desenvolver novos produtos, funcionalidades e tecnologias que beneficiem os nossos utilizadores e o público". Continua a dizer que utiliza informações publicamente disponíveis para "ajudar a treinar os modelos de IA da Google e a criar produtos e funcionalidades como o Google Translate, o Bard e as capacidades de IA na nuvem".

A versão anterior da política referia-se ao facto de a Google utilizar os dados para treinar "modelos linguísticos", ao passo que agora se refere a "modelos de IA", o que alarga o seu âmbito.

A definição vaga de "informação" e os objectivos alargados para a formação utilizando estes dados parecem indicar que, se publicar algo online, espera que o Google o recolha e adicione aos seus dados de formação.

Compreendemos que, se publicarmos um comentário no Facebook, tweetarmos algo ou escrevermos uma crítica na Amazon, isso estará à disposição do público. Não se espera que seja privado. Mas sente-se confortável com o facto de as suas palavras serem utilizadas para treinar um modelo de IA?

A alteração da redação da política pode também ser um sinal da intenção da Google de aumentar os seus esforços de recolha de dados. E o ritmo a que a Google e outras empresas de IA estão a extrair dados publicamente disponíveis está a ter impactos devastadores em várias plataformas.

O Twitter limitou recentemente o acesso O Twitter também retirou o acesso gratuito à sua API num esforço para travar os "scrapers" e, consequentemente, quebrou muitos serviços de terceiros que dependem da API. O Twitter também retirou o acesso gratuito à sua API num esforço para travar os scrapers e, consequentemente, quebrou muitos serviços de terceiros que dependem da API.

O Reddit também não passou incólume a esta corrida aos dados. Também ele retirou o acesso gratuito à API do Reddit, em parte devido à exploração por parte dos "scrapers". A reação dos moderadores do Reddit, que utilizam a API, provocou o encerramento de partes da Internet.

Centenas dos maiores subreddits foram tornados privados ou invisíveis por protesto dos moderadores do subreddit. Os proprietários do Reddit estão a dar ultimatos pouco subtis aos moderadores para que voltem a abrir os subreddits, mas o protesto continua.

A ironia é que o Google também está a sofrer com isso. Anexar "Reddit" a uma consulta de pesquisa do Google tornou-se uma forma popular de obter resultados muito específicos para uma consulta. O bloqueio do Reddit tornou inacessíveis muitos desses resultados de pesquisa.

A maioria das plataformas tem políticas de termos de serviço que proíbem a recolha de dados, mas violar os termos de serviço não equivale necessariamente a violar a lei. Enquanto tentam resolver o problema, certifique-se de que não se importa que o Google e outros utilizem os seus dados para treinar os seus modelos de IA antes de publicar qualquer coisa online.

A Google vai utilizar tudo o que publicar em linha para treinar a sua IA

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT