Reddit granskas för närvarande av Federal Trade Commission (FTC) för sina metoder för licensiering av AI-data, som avslöjades inför en planerad börsintroduktion.
FTC:s undersökning fokuserar på Reddits "försäljning, licensiering eller delning av användargenererat innehåll med tredje part för att träna AI-modeller".
Det kommer när Reddit förbereder sig för att börsnoteras, med planer på att prissätta sina aktier mellan $31 och $34, vilket potentiellt värderar företaget till cirka $6,5 miljarder.
Reddit sitter på en av de största guldgruvorna i internetinnehållets historia. Avsikten att sälja inlägg och kommentarer har orsakat en häftig debatt bland de 850 miljoner användare som Reddit har i genomsnitt varje månad.
Ett Reddit-inlägg har rubriken "Eftersom Reddit säljer användardata officiellt nu, är dina berättelser säkra?" med svarande som går med på att "börja dumpa värdelös skräpdata i Reddit varje dag under de kommande sextio dagarna."
Det är en intressant poäng - Reddits data är mycket känsliga för användarinmatningar, och med så starka gemenskaper på plats bör företaget inte vara alltför självbelåtet när det gäller sin rätt till användargenererat innehåll.
Men ändå.., Reddit hävdar att försäljning av data förblir i harmoni med sina principer och säger: "Möjligheten står inte i konflikt med våra värderingar och våra redaktörers rättigheter."
Reddits finansiella utsikter verkar robusta, med en 20% ökning av intäkterna förra året, uppgående till $804 miljoner, till stor del drivet av reklam.
Hittills inkluderar Reddits avslöjande att ingå datalicensavtal värderade till $203 miljoner. Man förväntar sig att generera minst $66,4 miljoner från dessa avtal 2024. Det är en blygsam del av dess totala inkomstflöde men kan växa exponentiellt.
Reddit har redan ingått ett partnerskap med Google som bland annat syftar till att utbilda AI-modeller. Detta visar hur viktig Reddit-datan är i en värld där teknikföretag blir alltmer villiga att betala för sin data i stället för att bara skrapa tvivelaktiga källor för "allmänt bruk".
Reddit reflekterar över FTC:s kommentarer uttalade"Vi är inte förvånade över att FTC har uttryckt intresse" för bolagets datalicensieringspraxis, och tillskriver granskningen "den nya karaktären hos dessa teknologier och kommersiella arrangemang".
Vidare bekräftar Reddit sin tro på lagligheten i sina metoder och betonar: "Vi anser inte att vi har ägnat oss åt någon orättvis eller bedräglig handelspraxis."
Företaget gav också en inblick i den pågående dialogen med FTC och noterade: "Brevet indikerade att FTC:s personal var intresserad av att träffa oss för att lära sig mer om våra planer och att FTC avsåg att begära information och dokument från oss när dess undersökning fortsätter."
FTC har intagit en hårdare hållning till teknikaffärer på senare tid, med myndighetens godkännande av nya utredningsbefogenheter över AI-företag i november förra året.
Den nya guldgruvan för betald data
Data har kommit billigt till generativa AI-företag, med databaser som skapats av webbenheter som Common Crawl och LAION som utgör grundpelaren för träningsdata.
Men det håller på att förändras, med upphovsrättsstämningar som hopar sig och EU:s AI-lag som försöker tvinga fram strängare datapraxis för branschen.
Dessutom är många webbplatser aktivt blockerande AI-webbsökare. Vilda västern-eran med gratis utbildningsdata kan vara på väg att ta slut.
Reddit är inte det enda företaget som känner till värdet av sitt innehåll. Automattic, moderbolaget till WordPress och Tumblr, är enligt uppgift i samtal med MidJourney och OpenAI för ett innehålls- och dataavtal.
När Reddit förbereder sig för sin börsintroduktion kommer företagets utveckling att följas noga av både tillsynsmyndigheter och Redditors.