Google afirma que todos los datos disponibles públicamente en Internet pueden utilizarse para entrenar sus productos de inteligencia artificial.
Google política de privacidad actualizada ahora afirma que "Google utiliza la información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que beneficien a nuestros usuarios y al público". Continúa diciendo que utiliza la información disponible públicamente para "ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y las capacidades de IA en la nube."
La versión anterior de la política se refería a que Google utilizaba los datos para entrenar "modelos lingüísticos", mientras que ahora se refiere a "modelos de IA", lo que amplía su alcance.
La definición imprecisa de "información" y la ampliación de los objetivos de la formación con estos datos parecen indicar que si publicas algo en Internet, puedes esperar que Google lo extraiga y lo añada a sus datos de formación.
Entendemos que si publicamos un comentario en Facebook, tuiteamos algo o escribimos una reseña en Amazon, está ahí para que el público lo lea. No esperes que sea privado. Pero, ¿le parece bien que sus palabras se utilicen para entrenar un modelo de inteligencia artificial?
El cambio en la redacción de la política también puede ser una señal de la intención de Google de intensificar sus esfuerzos de scraping. Y el ritmo al que Google y otras empresas de inteligencia artificial recopilan datos públicos está teniendo efectos devastadores en numerosas plataformas.
Twitter ha limitado recientemente el acceso a sus servicios, ya que sus servidores no daban abasto para hacer frente a "niveles extremos de rastreo de datos y manipulación del sistema", según Elon Musk. Twitter también eliminó el acceso gratuito a su API en un esfuerzo por frenar a los "scrapers" y, en consecuencia, rompió muchos servicios de terceros que dependen de la API.
Reddit tampoco ha salido indemne de esta fiebre por los datos. También eliminó el acceso gratuito a la API de Reddit, en parte debido a la explotación por parte de los raspadores. La reacción resultante de los moderadores de Reddit que hacen uso de la API ha cerrado partes de Internet.
Cientos de los subreddits más grandes se hicieron privados o invisibles por protesta contra los moderadores de subreddit. Los propietarios de Reddit están dando ultimátums no muy sutiles a los moderadores para que vuelvan a abrir los subreddits, pero la protesta continúa.
Lo irónico es que Google también está sufriendo las consecuencias. Añadir "Reddit" a una consulta de búsqueda en Google se ha convertido en una forma popular de obtener resultados muy específicos para una consulta. El apagón de Reddit ha hecho que muchos de esos resultados de búsqueda sean ahora inaccesibles.
La mayoría de las plataformas tienen políticas de términos de servicio que prohíben la extracción de datos, pero infringir los términos de servicio no equivale necesariamente a infringir la ley. Mientras intentan solucionarlo, asegúrate de que estás de acuerdo con que Google y otros utilicen tus datos para entrenar sus modelos de IA antes de publicar nada en línea.