Elon Musk a temporairement limité le nombre de tweets que les utilisateurs peuvent consulter en une journée. Il s'agit d'une "mesure d'urgence temporaire".
Dans son propre tweet, Musk a indiqué que les comptes non vérifiés ont désormais une limite de lecture de 1 000 messages par jour. Les nouveaux comptes non vérifiés ont une limite de 500 messages, tandis que ceux qui ont le statut "vérifié" sont actuellement limités à 10 000 messages par jour.
Dans un premier temps, Musk avait imposé des limites plus strictes, mais il les a révisées quelques heures après l'annonce.
Pour faire face à des niveaux extrêmes de grattage de données et de manipulation du système, nous avons appliqué les limites temporaires suivantes :
- Les comptes vérifiés sont limités à la lecture de 6000 messages par jour.
- Comptes non vérifiés jusqu'à 600 messages par jour
- Nouveaux comptes non vérifiés : 300 par jour- Elon Musk (@elonmusk) 1er juillet 2023
Musk a déclaré que ces restrictions temporaires étaient une réponse à "des niveaux extrêmes de grattage de données et de manipulation du système".
Vendredi, il a déclaré : "Les données étaient tellement pillées que cela dégradait le service pour les utilisateurs normaux", après que les utilisateurs ont vu des écrans leur demandant de se connecter pour voir le contenu de Twitter.
Musk a initialement fixé des limites de lecture de 6 000 messages par jour pour les comptes vérifiés, 600 pour les comptes non vérifiés et 300 pour les nouveaux comptes non vérifiés. Dans une mise à jour ultérieure, M. Musk a déclaré que "plusieurs centaines d'organisations, peut-être plus, récupéraient les données de Twitter de manière extrêmement agressive".
Le scraping de données consiste à extraire des informations de l'internet.
Afin de construire des modèles linguistiques complexes, les entreprises d'IA ont besoin de données provenant de conversations humaines réelles et d'un système d'information sur la vie privée.Où trouver ces données mieux que sur l'internet ? Pour collecter ces données, des robots parcourent inlassablement des sites comme Twitter et en extraient des données textuelles.
Toutefois, bien qu'elles soient accessibles au public, la plupart de ces données ne sont pas gratuites. Des plateformes comme Twitter et Reddit veulent être payées pour leurs données.
En outre, les robots de récupération de données mettent les serveurs à rude épreuve. Musk, qui critique l'IA, a déclaré : "Il est plutôt exaspérant de devoir mettre en ligne d'urgence un grand nombre de serveurs juste pour faciliter l'évaluation scandaleuse d'une startup spécialisée dans l'IA."
De même, en avril, Steve Huffman, PDG de Reddit, a déclaré au New York TimesLe corpus de données de Reddit est vraiment précieux, mais nous n'avons pas besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde.
Twitter a déjà commencé à faire payer aux utilisateurs l'accès à son interface de programmation d'applications (API), souvent utilisée par des applications tierces et des chercheurs, y compris des entreprises spécialisées dans l'IA.
Mais de quelles données s'agit-il ?
Une forme de guérilla numérique se déroule sur les serveurs hébergeant des sites comme Reddit et Twitter.
Les racleurs de données exploitent intensivement l'internet pour alimenter les modèles d'IA, même lorsque ces données ne sont pas destinées à être utilisées de cette manière.
Reddit, Twitter, etc., ont parfaitement le droit de réprimer l'exploration de données, mais ce n'est pas une tâche facile.
Le scraping est contraire aux conditions d'utilisation de ces sites, mais n'est probablement pas illégal, bien que cela dépende de l'usage que vous faites des données.
Par essence, le grattage de données est une forme d'intrusion numérique. Vous êtes toujours sur la propriété de quelqu'un, même si vous ne faites rien d'illégal.
Twitter semble développer de nouvelles techniques pour limiter le scraping de données, ce qui est tout à fait logique compte tenu des critiques générales de Musk à l'égard de l'industrie de l'IA et de certains de ses acteurs clés.