Google säger att all offentligt tillgänglig data på internet är fritt fram att skrapa och använda för att träna sina AI-produkter.
Googles uppdaterad integritetspolicy står det nu att "Google använder information för att förbättra våra tjänster och för att utveckla nya produkter, funktioner och tekniker som gynnar våra användare och allmänheten." Vidare står det att Google använder offentligt tillgänglig information för att "hjälpa till att träna Googles AI-modeller och bygga produkter och funktioner som Google Translate, Bard och Cloud AI-funktioner".
Den tidigare versionen av policyn hänvisade till att Google använde data för att träna "språkmodeller", medan den nu hänvisar till "AI-modeller", vilket breddar dess räckvidd.
Den lösa definitionen av "information" och de utökade målen för utbildning med hjälp av dessa data verkar tyda på att om du lägger upp något på nätet kan du förvänta dig att Google skrapar det och lägger till det i sina utbildningsdata.
Vi förstår att om vi lägger upp en kommentar på Facebook, twittrar något eller skriver en recension på Amazon så finns det där ute för allmänheten att läsa. Du förväntar dig inte att det ska vara privat. Men är du bekväm med att dina ord används för att träna en AI-modell?
Ändringen i policyformuleringen kan också vara en signal om Googles avsikt att öka sina skrapningsinsatser. Och den takt med vilken Google och andra AI-företag skrotar offentligt tillgängliga data har förödande effekter på många plattformar.
Twitter begränsade nyligen åtkomsten till sina tjänster eftersom dess servrar kämpade för att hålla jämna steg med "extrema nivåer av dataskrapning och systemmanipulation", enligt Elon Musk. Twitter tog också bort fri tillgång till sitt API i ett försök att begränsa skrapare och bröt följaktligen många tredjepartstjänster som förlitar sig på API.
Reddit har inte heller gått oskadd i denna rush efter data. Även Reddit tog bort den fria tillgången till Reddit API, delvis på grund av att det utnyttjades av scrapers. Den motreaktion som följde från de Reddit-moderatorer som använder API:et har effektivt stängt ner delar av internet.
Hundratals av de största subredditerna gjordes privata eller osynliga av protesterande subredditmoderatorer. Reddits ägare ställer inte så subtila ultimatum till moderatorerna för att öppna upp subredditerna igen, men protesterna fortsätter.
Det ironiska är att Google också drabbas av konsekvenserna av detta. Att lägga till "Reddit" till en Google-sökfråga har blivit ett populärt sätt att få mycket specifika resultat för en fråga. Reddit-blackouten har gjort att många av dessa sökresultat nu är otillgängliga.
De flesta plattformar har policyer för användarvillkor som förbjuder dataskrapning, men att bryta mot användarvillkoren motsvarar inte nödvändigtvis att bryta mot lagen. Medan de försöker lösa det, se till att du är ok med att Google och andra använder dina data för att träna sina AI-modeller innan du publicerar något online.