O Reddit está atualmente sob a mira da Comissão Federal do Comércio (FTC) devido às suas práticas de licenciamento de dados de IA, que foram reveladas antes de uma IPO planeada.
O inquérito da FTC centra-se na "venda, licenciamento ou partilha de conteúdos gerados pelos utilizadores com terceiros para treinar modelos de IA" do Reddit.
A Reddit está a preparar-se para se tornar pública, com planos para fixar o preço das suas acções entre $31 e $34, avaliando potencialmente a empresa em cerca de $6,5 mil milhões.
O Reddit está sentado numa das maiores minas de ouro da história dos conteúdos da Internet. A sua intenção de vender posts e comentários provocou um debate eruptivo entre os seus 850 milhões de utilizadores mensais médios.
Um dos posts do Reddit intitula-se "Uma vez que o Reddit está a vender oficialmente os dados dos utilizadores, as suas histórias estão seguras?" e os respondentes concordam em "começar a despejar dados inúteis no Reddit todos os dias durante os próximos sessenta dias".
É um ponto interessante - os dados do Reddit são altamente sensíveis aos contributos dos utilizadores e, com comunidades tão fortes, a empresa não deve ser demasiado complacente com o seu direito a conteúdos gerados pelos utilizadores.
No entanto, O Reddit argumenta que a venda de dados mantém-se em harmonia com os seus princípios, declarando: "A oportunidade não entra em conflito com os nossos valores e os direitos dos nossos Redditors".
As perspectivas financeiras do Reddit parecem robustas, com um aumento de 20% nas receitas do ano passado, que ascenderam a $804 milhões, em grande parte impulsionadas pela publicidade.
Até à data, a divulgação da Reddit inclui a celebração de acordos de licenciamento de dados avaliados em $203 milhões. A empresa espera gerar pelo menos $66,4 milhões com estes acordos em 2024. Trata-se de uma parte modesta do seu fluxo total de receitas, mas que pode crescer exponencialmente.
O Reddit já estabeleceu uma parceria com a Google para treinar modelos de IA, entre outros objectivos. Isto realça a importância dos seus dados num mundo em que as empresas tecnológicas estão cada vez mais dispostas a pagar pelos seus dados, em vez de se limitarem a explorar fontes duvidosas de "utilização pública".
Reflectindo sobre os comentários da FTC, o Reddit declaradoA FTC não está surpreendida com o facto de ter manifestado interesse" nas suas práticas de licenciamento de dados, atribuindo o escrutínio à "natureza inovadora destas tecnologias e acordos comerciais".
Além disso, a Reddit afirma acreditar na legalidade das suas práticas, sublinhando: "Não acreditamos que nos tenhamos envolvido em qualquer prática comercial desleal ou enganosa."
A empresa também partilhou informações sobre o diálogo em curso com a FTC, referindo que "a carta indicava que o pessoal da FTC estava interessado em reunir-se connosco para saber mais sobre os nossos planos e que a FTC tencionava solicitar-nos informações e documentos à medida que o seu inquérito prosseguisse".
Nos últimos tempos, a FTC tem vindo a adotar uma linha mais dura em relação aos acordos tecnológicos, com a autorização da agência de novos poderes de investigação sobre empresas de IA em novembro passado.
A nova corrida ao ouro dos dados pagos
Os dados têm sido baratos para as empresas de IA generativa, com bases de dados criadas por entidades da Web como a Common Crawl e a LAION a constituírem a base dos dados de treino.
No entanto, isso está a mudar, com os processos de direitos de autor a acumularem-se e a Lei da IA da UE tentando impor ao sector práticas mais rigorosas em matéria de dados.
Além disso, muitos sítios Web são bloqueando ativamente Rastreadores Web com IA. A era do Oeste selvagem dos dados de treino gratuitos pode estar a terminar.
O Reddit não é a única empresa que conhece o valor do seu conteúdo. A Automattic, a empresa-mãe do WordPress e do Tumblr, está a alegadamente em conversações com a MidJourney e a OpenAI para um acordo de conteúdos e dados.
À medida que o Reddit se prepara para a sua IPO, a trajetória da empresa será acompanhada de perto tanto pelos reguladores como pelos Redditors.