Reddit er for tiden under lupen til Federal Trade Commission (FTC) på grunn av sin praksis med lisensiering av AI-data, som ble avslørt i forkant av en planlagt børsnotering.
FTCs undersøkelse fokuserer på Reddits "salg, lisensiering eller deling av brukergenerert innhold med tredjeparter for å trene AI-modeller".
Det kommer samtidig som Reddit forbereder seg på å gå på børs, med planer om å prise aksjene mellom $31 og $34, noe som potensielt kan verdsette selskapet til omtrent $6,5 milliarder kroner.
Reddit sitter på en av de største gullgruvene i internettets innholdshistorie. Planene om å selge innlegg og kommentarer har ført til en voldsom debatt blant de 850 millioner gjennomsnittlige månedlige brukerne.
Et Reddit-innlegg har overskriften "Siden Reddit selger brukerdata offisielt nå, er historiene dine trygge?", og de som svarer er enige om å "begynne å dumpe ubrukelig søppeldata i Reddit hver dag de neste seksti dagene".
Det er et interessant poeng - Reddits data er svært sensitive for brukernes innspill, og med så sterke fellesskap på plass, bør ikke selskapet være for selvtilfreds med sin rett til brukergenerert innhold.
Ikke desto mindre, Reddit hevder at salg av data er i harmoni med sine prinsipper, og sier: "Muligheten er ikke i konflikt med våre verdier og rettighetene til våre Redditors."
Reddits økonomiske utsikter ser robuste ut, med en økning i inntektene på 20% i fjor, til $804 millioner, hovedsakelig drevet av reklame.
Så langt har Reddit blant annet inngått datalisensieringsavtaler til en verdi av $203 millioner. De forventer å generere minst $66,4 millioner fra disse avtalene i 2024. Det er en beskjeden del av den totale inntektsstrømmen, men kan vokse eksponentielt.
Reddit har allerede inngått et partnerskap med Google, blant annet for å trene opp AI-modeller. Dette understreker viktigheten av dataene i en verden der teknologiselskaper i økende grad er villige til å betale for dataene sine i stedet for bare å skrape tvilsomme kilder til "offentlig bruk".
Reddit reflekterer over FTCs kommentarer oppgitt"Vi er ikke overrasket over at FTC har uttrykt interesse" for selskapets datalisensieringspraksis, og tilskriver granskningen "den nye karakteren til disse teknologiene og kommersielle avtalene".
Reddit hevder dessuten at de tror på lovligheten av sin praksis, og understreker: "Vi tror ikke at vi har deltatt i noen urettferdig eller villedende handelspraksis."
Selskapet delte også innsikt i den pågående dialogen med FTC, og bemerket: "Brevet indikerte at FTCs ansatte var interessert i å møte oss for å lære mer om planene våre, og at FTC hadde til hensikt å be om informasjon og dokumenter fra oss etter hvert som undersøkelsen fortsetter."
FTC har i den senere tid lagt seg på en hardere linje overfor teknologiaffærer, og byrået har godkjent nye etterforskningsbeføyelser over AI-selskaper i november i fjor.
Den nye gullrusen av betalte data
Data har vært billig for generative AI-selskaper, og databaser opprettet av nettaktører som Common Crawl og LAION utgjør hovedgrunnlaget for opplæringsdata.
Dette er imidlertid i ferd med å endre seg, med opphavsrettssøksmål som hoper seg opp og EUs AI-lov forsøker å pålegge bransjen strengere datapraksis.
Dessuten er mange nettsteder aktivt blokkerende AI-webcrawlere. Det kan være slutt på det ville vestens tid med gratis treningsdata.
Reddit er ikke det eneste selskapet som vet verdien av innholdet sitt. Automattic, morselskapet til WordPress og Tumblr, er angivelig i samtaler med MidJourney og OpenAI om en innholds- og dataavtale.
Mens Reddit forbereder seg på børsnoteringen, vil selskapets utvikling bli fulgt nøye av både tilsynsmyndigheter og Reddit-brukere.