Reddit est actuellement dans le collimateur de la Commission fédérale du commerce (FTC) pour ses pratiques en matière de licences de données d'IA, qui ont été révélées avant une introduction en bourse prévue.
L'enquête de la FTC porte sur la "vente, l'octroi de licences ou le partage par Reddit de contenus générés par les utilisateurs avec des tiers pour former des modèles d'intelligence artificielle".
Cette annonce intervient alors que Reddit se prépare à entrer en bourse, avec des projets de valorisation de ses actions entre $31 et $34, ce qui pourrait valoriser l'entreprise à environ $6,5 milliards d'euros.
Reddit est assis sur l'une des plus grandes mines d'or de l'histoire du contenu Internet. Son intention de vendre des articles et des commentaires a provoqué un débat houleux parmi ses 850 millions d'utilisateurs mensuels moyens.
L'un des posts de Reddit s'intitule "Puisque Reddit vend officiellement les données de ses utilisateurs, vos histoires sont-elles en sécurité ?" et les personnes qui y répondent acceptent de "commencer à déverser des données inutiles dans Reddit tous les jours pendant les soixante prochains jours".
C'est un point intéressant - les données de Reddit sont très sensibles aux contributions des utilisateurs, et avec des communautés aussi fortes en place, l'entreprise ne devrait pas trop se reposer sur ses lauriers en ce qui concerne le contenu généré par les utilisateurs.
Néanmoins, Reddit affirme que la vente de données reste en harmonie avec ses principes, déclarant : "L'opportunité n'est pas en conflit avec nos valeurs et les droits de nos rédacteurs".
Les perspectives financières de Reddit semblent solides, avec une augmentation de 20% du chiffre d'affaires l'année dernière, qui s'est élevé à $804 millions, en grande partie grâce à la publicité.
Jusqu'à présent, Reddit a notamment conclu des accords de licence de données d'une valeur de $203 millions. Il prévoit de générer au moins $66,4 millions à partir de ces accords en 2024. Il s'agit d'une part modeste de son flux de revenus total, mais qui pourrait croître de manière exponentielle.
Reddit a déjà conclu un partenariat avec Google dans le but de former des modèles d'IA, entre autres objectifs. Cela souligne l'importance de ses données dans un monde où les entreprises technologiques sont de plus en plus disposées à payer pour leurs données plutôt que de se contenter de récupérer des sources douteuses "à usage public".
Réfléchissant aux commentaires de la FTC, Reddit déclaréeNous ne sommes pas surpris que la FTC ait manifesté de l'intérêt" pour ses pratiques en matière de licences de données, attribuant cet examen à "la nature nouvelle de ces technologies et de ces accords commerciaux".
En outre, Reddit se dit convaincu de la légalité de ses pratiques, soulignant que "nous ne pensons pas nous être livrés à des pratiques commerciales déloyales ou trompeuses".
L'entreprise a également donné un aperçu du dialogue en cours avec la FTC : "La lettre indiquait que le personnel de la FTC souhaitait nous rencontrer pour en savoir plus sur nos projets et que la FTC avait l'intention de nous demander des informations et des documents au fur et à mesure de son enquête".
Ces derniers temps, la FTC s'est montrée plus sévère à l'égard des transactions dans le domaine de la technologie. nouveaux pouvoirs d'enquête sur les entreprises d'IA en novembre dernier.
La nouvelle ruée vers les données payantes
Les données sont peu coûteuses pour les entreprises d'IA générative, les bases de données créées par des entités web telles que Common Crawl et LAION constituant l'essentiel des données d'entraînement.
Toutefois, la situation est en train de changer, avec l'accumulation des procès en matière de droits d'auteur et l'augmentation du nombre d'utilisateurs de l'Internet. Loi européenne sur l'IA tenter de rendre obligatoires des pratiques plus strictes en matière de données pour l'industrie.
De plus, de nombreux sites web sont blocage actif Les robots d'exploration du web par l'IA. L'ère du Far West des données d'entraînement gratuites est peut-être en train de s'achever.
Reddit n'est pas la seule entreprise à connaître la valeur de son contenu. Automattic, la société mère de WordPress et de Tumblr, est serait en pourparlers avec MidJourney et OpenAI pour un accord sur le contenu et les données.
Alors que Reddit se prépare à son introduction en bourse, la trajectoire de l'entreprise sera suivie de près par les autorités de régulation et les utilisateurs de Reddit.