Google zegt dat alle openbaar beschikbare gegevens op het internet mogen worden geschraapt en gebruikt om zijn AI-producten te trainen.
Google's bijgewerkt privacybeleid staat nu dat "Google informatie gebruikt om onze services te verbeteren en om nieuwe producten, functies en technologieën te ontwikkelen die onze gebruikers en het publiek ten goede komen." Verder staat er dat openbaar beschikbare informatie wordt gebruikt om "Google's AI-modellen te helpen trainen en producten en functies zoals Google Translate, Bard en Cloud AI-mogelijkheden te bouwen."
De vorige versie van het beleid verwees naar Google die de gegevens gebruikte om "taalmodellen" te trainen, terwijl het nu verwijst naar "AI-modellen", wat de reikwijdte verbreedt.
De losjes gedefinieerde "informatie" en de uitgebreide doelen voor training met behulp van deze gegevens lijken erop te wijzen dat als je iets online zet, je kunt verwachten dat Google het zal schrapen en toevoegen aan zijn trainingsgegevens.
We begrijpen dat als we een reactie plaatsen op Facebook, iets tweeten of een recensie schrijven op Amazon, het publiek dit kan lezen. Je verwacht niet dat het privé blijft. Maar voel jij je er wel prettig bij dat jouw woorden worden gebruikt om een AI-model te trainen?
De verandering in de beleidsformulering kan ook een signaal zijn dat Google van plan is zijn scraping-inspanningen op te voeren. En het tempo waarin Google en andere AI-bedrijven publiekelijk beschikbare gegevens schrapen, heeft verwoestende gevolgen voor talloze platforms.
Twitter heeft onlangs de toegang beperkt van zijn diensten omdat zijn servers moeite hadden om "extreme niveaus van dataschrapen en systeemmanipulatie" bij te houden, volgens Elon Musk. Twitter verwijderde ook de vrije toegang tot zijn API in een poging om scrapers te beteugelen en brak daardoor veel diensten van derden die afhankelijk zijn van de API.
Reddit is ook niet ongedeerd gebleven in deze stormloop naar gegevens. Ook Reddit heeft de vrije toegang tot de Reddit API verwijderd, deels vanwege misbruik door scrapers. De resulterende reactie van de Reddit moderators die gebruik maken van de API heeft effectief delen van het internet platgelegd.
Honderden van de grootste subreddits werden privé of onzichtbaar gemaakt door protesterende subreddit moderators. De eigenaren van Reddit geven niet-subtiele ultimatums aan de moderators om de subreddits weer open te stellen, maar het protest gaat door.
De ironie is dat Google hier ook onder lijdt. Het toevoegen van "Reddit" aan een Google zoekopdracht is een populaire manier geworden om zeer specifieke resultaten voor een zoekopdracht te krijgen. De Reddit blackout heeft veel van die zoekresultaten nu ontoegankelijk gemaakt.
De meeste platforms hebben een servicevoorwaardenbeleid dat het schrapen van gegevens verbiedt, maar het schenden van de servicevoorwaarden hoeft niet gelijk te staan aan het overtreden van de wet. Zorg ervoor dat je het goed vindt dat Google en anderen je gegevens gebruiken om hun AI-modellen te trainen voordat je iets online zet, terwijl ze het proberen op te lossen.