Google sier at alle offentlig tilgjengelige data på internett er fritt vilt til å skrape og bruke til å trene opp AI-produktene sine.
Googles oppdatert personvernerklæring står det nå at "Google bruker informasjon for å forbedre tjenestene våre og for å utvikle nye produkter, funksjoner og teknologier som kommer brukerne og allmennheten til gode." Videre står det at de bruker offentlig tilgjengelig informasjon til å "bidra til å trene opp Googles AI-modeller og bygge produkter og funksjoner som Google Translate, Bard og Cloud AI-funksjoner".
I den forrige versjonen av retningslinjene ble det referert til at Google brukte dataene til å trene opp "språkmodeller", mens det nå refereres til "AI-modeller", noe som utvider omfanget.
Den løse definisjonen av "informasjon" og de utvidede målene for opplæring ved hjelp av disse dataene ser ut til å indikere at hvis du legger ut noe på nettet, kan du forvente at Google skraper det og legger det til i opplæringsdataene sine.
Vi forstår at hvis vi legger ut en kommentar på Facebook, twitrer noe eller skriver en anmeldelse på Amazon, er det ute for offentligheten å lese. Du forventer ikke at det skal være privat. Men er du komfortabel med at ordene dine blir brukt til å trene opp en AI-modell?
Endringen i policyformuleringen kan også være et signal om at Google har til hensikt å trappe opp skrapeinnsatsen. Og tempoet Google og andre AI-selskaper skraper offentlig tilgjengelige data i, har ødeleggende innvirkning på mange plattformer.
Twitter begrenset nylig tilgangen til sine tjenester ettersom serverne slet med å holde tritt med "ekstreme nivåer av dataskraping og systemmanipulasjon", ifølge Elon Musk. Twitter fjernet også gratis tilgang til API-et sitt i et forsøk på å dempe dataskrapere, noe som førte til at mange tredjepartstjenester som var avhengige av API-et, ble ødelagt.
Reddit har heller ikke gått uskadd fra dette dataruset. Også Reddit har fjernet gratis tilgang til Reddit API, delvis på grunn av utnyttelse av skrapere. Motreaksjonene fra Reddit-moderatorene som benytter seg av API-et, har ført til at deler av internett i praksis har blitt stengt ned.
Hundrevis av de største subreddittene ble gjort private eller usynlige av protesterer mot subreddit-moderatorer. Eierne av Reddit stiller ikke så subtile ultimatum til moderatorene om å åpne subreddittene igjen, men protestene fortsetter.
Ironien er at Google også lider som en konsekvens av dette. Å legge til "Reddit" i et Google-søk har blitt en populær måte å få veldig spesifikke resultater for et spørsmål. Reddit-blackouten har gjort mange av disse søkeresultatene utilgjengelige nå.
De fleste plattformer har tjenestevilkår som forbyr dataskraping, men det å bryte tjenestevilkårene er ikke nødvendigvis det samme som å bryte loven. Mens de prøver å finne en løsning, bør du forsikre deg om at det er greit at Google og andre bruker dataene dine til å trene opp AI-modellene sine før du legger ut noe på nettet.