Elon Musk heeft het aantal tweets dat gebruikers op een dag kunnen bekijken tijdelijk beperkt. Dit wordt beschreven als een "tijdelijke noodmaatregel".
In zijn eigen tweet deelde Musk dat niet-geverifieerde accounts nu een limiet hebben van 1.000 berichten per dag. Nieuwe niet-geverifieerde accounts hebben een limiet van 500 berichten, terwijl degenen met een "geverifieerde" status momenteel beperkt zijn tot het bekijken van 10.000 berichten per dag.
Musk had aanvankelijk strengere limieten opgelegd, maar herzag deze binnen enkele uren na de aankondiging.
Om extreme niveaus van gegevensschrapen en systeemmanipulatie aan te pakken, hebben we de volgende tijdelijke limieten toegepast:
- Geverifieerde accounts mogen maximaal 6000 berichten per dag lezen
- Ongeverifieerde accounts tot 600 berichten/dag
- Nieuwe niet-geverifieerde accounts tot 300/dag- Elon Musk (@elonmusk) 1 juli 2023
Musk verklaarde dat deze tijdelijke beperkingen een reactie waren op "extreme niveaus van data scraping en systeemmanipulatie".
Hij merkte vrijdag op: "We kregen zoveel gegevens te zien dat het de service voor normale gebruikers verminderde," nadat gebruikers schermen te zien kregen waarin ze werden gevraagd om in te loggen om de inhoud van Twitter te kunnen zien.
Musk stelde aanvankelijk een leeslimiet in van 6.000 berichten per dag voor geverifieerde accounts, 600 voor niet-geverifieerde accounts en 300 voor nieuwe niet-geverifieerde accounts. In een latere update verklaarde Musk dat "enkele honderden organisaties, misschien meer, extreem agressief Twitter-gegevens aan het schrapen waren".
Dataschrapen is het extraheren van informatie van het internet.
Om complexe grote taalmodellen (LLM's) te bouwen, hebben AI-bedrijven gegevens nodig van echte menselijke gesprekken en wWaar kun je die gegevens beter zoeken dan op het internet? Om dergelijke gegevens te verzamelen, crawlen bots onvermoeibaar sites zoals Twitter en halen er tekstgegevens uit.
Hoewel deze gegevens beschikbaar zijn voor het publiek, liggen ze niet voor het oprapen. Platforms als Twitter en Reddit willen betaald worden voor hun gegevens.
Bovendien belasten bots die gegevens schrapen de servers. Musk, die kritisch staat tegenover AI, zei: "Het is nogal stuitend om grote aantallen servers op noodbasis online te moeten brengen, alleen maar om de schandalige waardering van een of andere AI-startup mogelijk te maken."
Zo ook Steve Huffman, CEO van Reddit, in april, vertelde de New York Times"Het Reddit-corpus van gegevens is echt waardevol, maar we hoeven niet al die waarde gratis aan enkele van de grootste bedrijven ter wereld te geven."
Twitter is al begonnen gebruikers te laten betalen voor toegang tot zijn application programming interface (API), die vaak wordt gebruikt door apps van derden en onderzoekers, waaronder AI-bedrijven.
Maar wiens gegevens zijn het eigenlijk?
Er vindt een vorm van digitale guerrillaoorlog plaats op de servers die sites als Reddit en Twitter hosten.
Dataschrapers ontginnen het internet intensief om AI-modellen te voeden, zelfs als die gegevens niet bedoeld zijn om op die manier te worden gebruikt.
Reddit, Twitter, enz. hebben het volste recht om het crawlen van gegevens aan te pakken, maar het is geen gemakkelijke taak.
Scraping is in strijd met de servicevoorwaarden van deze sites, maar waarschijnlijk niet illegaal - hoewel dat afhangt van waar je de gegevens voor gebruikt.
In essentie is dataschrapen een vorm van digitale onbevoegdheid. Je bevindt je nog steeds op iemands eigendom, zelfs als je niets illegaals doet.
Twitter lijkt nieuwe technieken te ontwikkelen om het schrapen van gegevens tegen te gaan, wat zeker logisch is gezien Musk's algemene kritiek op de AI-industrie en sommige van haar hoofdrolspelers.