Google afferma che tutti i dati disponibili pubblicamente su Internet possono essere utilizzati per addestrare i suoi prodotti di intelligenza artificiale.
Google informativa sulla privacy aggiornata ora afferma che "Google utilizza le informazioni per migliorare i propri servizi e per sviluppare nuovi prodotti, funzionalità e tecnologie a vantaggio dei propri utenti e del pubblico". Il testo prosegue affermando che utilizza le informazioni disponibili al pubblico per "contribuire all'addestramento dei modelli di intelligenza artificiale di Google e alla creazione di prodotti e funzioni come Google Translate, Bard e le funzionalità Cloud AI".
La versione precedente dell'informativa si riferiva all'utilizzo dei dati da parte di Google per addestrare "modelli linguistici", mentre ora si parla di "modelli di intelligenza artificiale", ampliando così il campo di applicazione.
La definizione poco rigorosa di "informazioni" e gli obiettivi ampliati per la formazione utilizzando questi dati sembrano indicare che se si pubblica qualcosa online, ci si può aspettare che Google lo scarti e lo aggiunga ai suoi dati di formazione.
Sappiamo che se pubblichiamo un commento su Facebook, twittiamo qualcosa o scriviamo una recensione su Amazon, è un dato di fatto che il pubblico può leggere. Non ci si aspetta che sia privato. Ma vi sentite a vostro agio se le vostre parole vengono usate per addestrare un modello di intelligenza artificiale?
La modifica della formulazione della politica potrebbe anche essere un segnale dell'intenzione di Google di intensificare i suoi sforzi di scraping. Il ritmo con cui Google e altre aziende di AI stanno effettuando lo scraping di dati disponibili pubblicamente sta avendo un impatto devastante su numerose piattaforme.
Twitter ha recentemente limitato l'accesso ai suoi servizi perché i suoi server faticavano a tenere il passo con "livelli estremi di scraping dei dati e di manipolazione del sistema", secondo Elon Musk. Twitter ha anche rimosso l'accesso gratuito alle sue API nel tentativo di limitare gli scrapers e di conseguenza ha interrotto molti servizi di terze parti che si basano sulle API.
Anche Reddit non è rimasto indenne da questa corsa ai dati. Anch'esso ha rimosso l'accesso gratuito all'API di Reddit, in parte a causa dello sfruttamento da parte degli scrapers. Il conseguente contraccolpo da parte dei moderatori di Reddit che utilizzano l'API ha di fatto bloccato alcune parti di Internet.
Centinaia dei più grandi subreddit sono stati resi privati o invisibili da protesta dei moderatori dei subreddit. I proprietari di Reddit stanno lanciando ultimatum non troppo velati ai moderatori per riaprire i subreddit, ma la protesta continua.
L'ironia della sorte vuole che anche Google ne risenta. L'aggiunta di "Reddit" a una query di ricerca su Google è diventata un modo popolare per ottenere risultati molto specifici. Il blackout di Reddit ha reso inaccessibili molti di questi risultati di ricerca.
La maggior parte delle piattaforme ha dei termini di servizio che vietano lo scraping dei dati, ma infrangere i termini di servizio non equivale necessariamente a infrangere la legge. Mentre cercano di trovare una soluzione, assicuratevi di essere d'accordo che Google e altri utilizzino i vostri dati per addestrare i loro modelli di intelligenza artificiale prima di pubblicare qualsiasi cosa online.