Google gebruikt alles wat je online plaatst om zijn AI te trainen

Google zegt dat alle openbaar beschikbare gegevens op het internet mogen worden geschraapt en gebruikt om zijn AI-producten te trainen.

Google's bijgewerkt privacybeleid staat nu dat "Google informatie gebruikt om onze services te verbeteren en om nieuwe producten, functies en technologieën te ontwikkelen die onze gebruikers en het publiek ten goede komen." Verder staat er dat openbaar beschikbare informatie wordt gebruikt om "Google's AI-modellen te helpen trainen en producten en functies zoals Google Translate, Bard en Cloud AI-mogelijkheden te bouwen."

De vorige versie van het beleid verwees naar Google die de gegevens gebruikte om "taalmodellen" te trainen, terwijl het nu verwijst naar "AI-modellen", wat de reikwijdte verbreedt.

De losjes gedefinieerde "informatie" en de uitgebreide doelen voor training met behulp van deze gegevens lijken erop te wijzen dat als je iets online zet, je kunt verwachten dat Google het zal schrapen en toevoegen aan zijn trainingsgegevens.

We begrijpen dat als we een reactie plaatsen op Facebook, iets tweeten of een recensie schrijven op Amazon, het publiek dit kan lezen. Je verwacht niet dat het privé blijft. Maar voel jij je er wel prettig bij dat jouw woorden worden gebruikt om een AI-model te trainen?

De verandering in de beleidsformulering kan ook een signaal zijn dat Google van plan is zijn scraping-inspanningen op te voeren. En het tempo waarin Google en andere AI-bedrijven publiekelijk beschikbare gegevens schrapen, heeft verwoestende gevolgen voor talloze platforms.

Twitter heeft onlangs de toegang beperkt van zijn diensten omdat zijn servers moeite hadden om "extreme niveaus van dataschrapen en systeemmanipulatie" bij te houden, volgens Elon Musk. Twitter verwijderde ook de vrije toegang tot zijn API in een poging om scrapers te beteugelen en brak daardoor veel diensten van derden die afhankelijk zijn van de API.

Reddit is ook niet ongedeerd gebleven in deze stormloop naar gegevens. Ook Reddit heeft de vrije toegang tot de Reddit API verwijderd, deels vanwege misbruik door scrapers. De resulterende reactie van de Reddit moderators die gebruik maken van de API heeft effectief delen van het internet platgelegd.

Honderden van de grootste subreddits werden privé of onzichtbaar gemaakt door protesterende subreddit moderators. De eigenaren van Reddit geven niet-subtiele ultimatums aan de moderators om de subreddits weer open te stellen, maar het protest gaat door.

De ironie is dat Google hier ook onder lijdt. Het toevoegen van "Reddit" aan een Google zoekopdracht is een populaire manier geworden om zeer specifieke resultaten voor een zoekopdracht te krijgen. De Reddit blackout heeft veel van die zoekresultaten nu ontoegankelijk gemaakt.

De meeste platforms hebben een servicevoorwaardenbeleid dat het schrapen van gegevens verbiedt, maar het schenden van de servicevoorwaarden hoeft niet gelijk te staan aan het overtreden van de wet. Zorg ervoor dat je het goed vindt dat Google en anderen je gegevens gebruiken om hun AI-modellen te trainen voordat je iets online zet, terwijl ze het proberen op te lossen.

Google gebruikt alles wat je online zet om zijn AI te trainen

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT