Reddit er i øjeblikket i Federal Trade Commissions (FTC) søgelys for sin AI-datalicenspraksis, som blev afsløret forud for en planlagt børsnotering.
FTC's undersøgelse fokuserer på Reddits "salg, licensering eller deling af brugergenereret indhold med tredjeparter for at træne AI-modeller."
Det sker, mens Reddit forbereder sig på at blive børsnoteret med planer om at prissætte sine aktier mellem $31 og $34, hvilket potentielt kan værdisætte virksomheden til ca. $6,5 milliarder.
Reddit sidder på en af de største guldminer i internettets indholdshistorie. Dets hensigt om at sælge indlæg og kommentarer har skabt en voldsom debat blandt de 850 millioner gennemsnitlige månedlige brugere.
Et Reddit-indlæg har overskriften "Da Reddit nu officielt sælger brugerdata, er dine historier så sikre?", og de, der svarer, bliver enige om at "begynde at dumpe ubrugelige affaldsdata i Reddit hver dag i de næste 60 dage."
Det er en interessant pointe - Reddits data er meget følsomme over for brugerinput, og med så stærke fællesskaber på plads bør virksomheden ikke være for selvtilfreds med sin ret til brugergenereret indhold.
Ikke desto mindre, Reddit hævder, at salg af data forbliver i harmoni med sine principper og siger: "Muligheden er ikke i konflikt med vores værdier og vores redaktionsmedlemmers rettigheder."
Reddits økonomiske udsigter ser robuste ud med en stigning i omsætningen på 20% sidste år, som beløb sig til $804 millioner, hovedsageligt drevet af reklamer.
Indtil videre omfatter Reddits offentliggørelse indgåelse af datalicensaftaler til en værdi af $203 millioner. De forventer at generere mindst $66,4 millioner fra disse aftaler i 2024. Det er en beskeden del af den samlede indtægtsstrøm, men den kan vokse eksponentielt.
Reddit har allerede indgået et partnerskab med Google, der blandt andet har til formål at træne AI-modeller. Det understreger vigtigheden af deres data i en verden, hvor teknologivirksomheder i stigende grad er villige til at betale for deres data i stedet for bare at skrabe tvivlsomme kilder til "offentlig brug".
Reddit reflekterer over FTC's kommentarer. Udtalt"Vi er ikke overraskede over, at FTC har udtrykt interesse" for virksomhedens datalicenspraksis, og tilskriver undersøgelsen "den nye karakter af disse teknologier og kommercielle arrangementer."
Desuden bekræfter Reddit sin tro på lovligheden af sin praksis og understreger: "Vi mener ikke, at vi har udøvet nogen illoyal eller vildledende handelspraksis."
Virksomheden gav også et indblik i den igangværende dialog med FTC og bemærkede: "Brevet indikerede, at FTC's medarbejdere var interesserede i at mødes med os for at lære mere om vores planer, og at FTC havde til hensigt at anmode om oplysninger og dokumenter fra os, mens deres undersøgelse fortsætter."
FTC har lagt en hårdere linje over for teknologiaftaler i den seneste tid, med agenturets godkendelse af Nye undersøgelsesbeføjelser over AI-virksomheder i november sidste år.
Den nye guldgrube af betalte data
Data er kommet billigt til generative AI-virksomheder, hvor databaser oprettet af webenheder som Common Crawl og LAION udgør grundstammen i træningsdata.
Men det er ved at ændre sig, da retssager om ophavsret hober sig op, og EU's lov om kunstig intelligens der forsøger at pålægge industrien en strammere datapraksis.
Desuden er mange hjemmesider blokerer aktivt AI-webcrawlere. Det vilde vestens æra med gratis træningsdata er måske ved at være slut.
Reddit er ikke den eneste virksomhed, der kender værdien af sit indhold. Automattic, moderselskabet bag WordPress og Tumblr, er efter sigende i forhandlinger med MidJourney og OpenAI om en indholds- og dataaftale.
Mens Reddit forbereder sig på sin børsnotering, vil virksomhedens udvikling blive fulgt nøje af både myndigheder og Reddit-brugere.