Elon Musk ha temporaneamente limitato il numero di tweet che gli utenti possono visualizzare in un giorno. Questa viene descritta come una "misura di emergenza temporanea".
Nel suo stesso tweet, Musk ha condiviso che gli account non verificati hanno ora un limite di lettura di 1.000 post al giorno. I nuovi account non verificati hanno un limite di 500 post, mentre quelli con lo status di "verificato" sono attualmente limitati a visualizzare 10.000 post al giorno.
Inizialmente, Musk aveva imposto limiti più severi, ma li ha rivisti poche ore dopo l'annuncio.
Per affrontare livelli estremi di scraping dei dati e di manipolazione del sistema, abbiamo applicato i seguenti limiti temporanei:
- Gli account verificati sono limitati a leggere 6000 messaggi al giorno.
- Account non verificati fino a 600 messaggi al giorno
- Nuovi account non verificati a 300 al giorno- Elon Musk (@elonmusk) 1° luglio 2023
Musk ha dichiarato che queste restrizioni temporanee erano in risposta a "livelli estremi di scraping dei dati e di manipolazione del sistema".
Venerdì scorso ha dichiarato: "I dati sono stati saccheggiati a tal punto che il servizio per gli utenti normali si è degradato", dopo che gli utenti hanno visto delle schermate che chiedevano loro di effettuare il login per vedere i contenuti di Twitter.
Inizialmente Musk aveva fissato un limite di lettura di 6.000 post al giorno per gli account verificati, 600 per quelli non verificati e 300 per i nuovi account non verificati. In un successivo aggiornamento, Musk ha dichiarato che "diverse centinaia di organizzazioni, forse di più, stavano effettuando uno scraping dei dati di Twitter in modo estremamente aggressivo".
Il data scraping è l'estrazione di informazioni da Internet.
Per costruire complessi modelli linguistici di grandi dimensioni (LLM), le aziende di IA hanno bisogno di dati provenienti da conversazioni umane reali e di dati di tipo "w".dove cercare questi dati meglio di Internet? Per raccogliere tali dati, i bot strisciano instancabilmente siti come Twitter ed estraggono dati testuali.
Tuttavia, sebbene siano disponibili al pubblico, molti di questi dati non sono a disposizione del pubblico. Piattaforme come Twitter e Reddit vogliono essere pagate per i loro dati.
Inoltre, i bot per lo scraping dei dati mettono a dura prova i server. Musk, che è critico nei confronti dell'intelligenza artificiale, ha dichiarato: "È piuttosto irritante dover mettere online un gran numero di server in caso di emergenza solo per facilitare la valutazione spropositata di qualche startup di intelligenza artificiale".
Allo stesso modo, in aprile, Steve Huffman, CEO di Reddit, ha dichiarato al New York TimesIl corpus di dati di Reddit è davvero prezioso, ma non dobbiamo dare tutto questo valore ad alcune delle più grandi aziende del mondo gratuitamente".
Twitter ha già iniziato a far pagare agli utenti l'accesso alla sua interfaccia di programmazione delle applicazioni (API), spesso utilizzata da applicazioni e ricercatori di terze parti, comprese le aziende di IA.
Ma di chi sono i dati?
È in atto una forma di guerriglia digitale sui server che ospitano siti come Reddit e Twitter.
I data scrapers stanno estraendo intensivamente Internet per alimentare i modelli di intelligenza artificiale, anche quando i dati non sono destinati a essere utilizzati in questo modo.
Reddit, Twitter, ecc. hanno il pieno diritto di reprimere il crawling dei dati, ma non è un compito facile.
Lo scraping è contrario ai termini di servizio di questi siti, ma probabilmente non è illegale, anche se dipende dallo scopo per cui si utilizzano i dati.
In sostanza, il data scraping è una forma di violazione digitale. Siete comunque nella proprietà di qualcuno anche se non state facendo nulla di illegale.
Sembra che Twitter stia sviluppando nuove tecniche per limitare lo scraping dei dati, il che ha certamente senso viste le critiche generali di Musk all'industria dell'IA e ad alcuni dei suoi protagonisti.