Elon Musk restringiu temporariamente o número de tweets que os utilizadores podem ver num dia. Esta medida é descrita como uma "medida de emergência temporária".
No seu próprio tweet, Musk partilhou que as contas não verificadas têm agora um limite de leitura de 1.000 mensagens por dia. As novas contas não verificadas têm um limite de 500 mensagens, enquanto as que têm o estatuto de "verificadas" estão atualmente limitadas a ver 10.000 mensagens por dia.
Inicialmente, Musk tinha imposto limites mais rigorosos, mas reviu-os poucas horas depois do anúncio.
Para lidar com níveis extremos de recolha de dados e manipulação do sistema, aplicámos os seguintes limites temporários:
- As contas verificadas estão limitadas à leitura de 6000 mensagens/dia
- Contas não verificadas até 600 mensagens/dia
- Novas contas não verificadas até 300/dia- Elon Musk (@elonmusk) 1 de julho de 2023
Musk declarou que estas restrições temporárias foram impostas em resposta a "níveis extremos de extração de dados e de manipulação do sistema".
Na sexta-feira, o responsável referiu que "a pilhagem de dados era tão grande que estava a degradar o serviço para os utilizadores normais", depois de os utilizadores terem visto ecrãs que lhes pediam para iniciar sessão para verem o conteúdo do Twitter.
Musk estabeleceu inicialmente limites de leitura de 6.000 mensagens por dia para contas verificadas, 600 para contas não verificadas e 300 para novas contas não verificadas. Numa atualização subsequente, Musk afirmou que "várias centenas de organizações, talvez mais, estavam a recolher dados do Twitter de forma extremamente agressiva".
A recolha de dados é a extração de informações da Internet.
Para construir modelos linguísticos complexos de grande dimensão (LLM), as empresas de IA necessitam de dados de conversas humanas reais e deQual o melhor sítio para procurar esses dados do que a Internet? Para recolher esses dados, os bots rastejam incansavelmente sítios como o Twitter e extraem dados de texto.
No entanto, apesar de estarem disponíveis ao público, muitos destes dados não estão à disposição. Plataformas como o Twitter e o Reddit querem ser pagas pelos seus dados.
Além disso, os bots de recolha de dados sobrecarregam os servidores. Musk, que critica a IA, afirmou: "É bastante desagradável ter de colocar um grande número de servidores online numa base de emergência apenas para facilitar a avaliação ultrajante de uma startup de IA".
Do mesmo modo, em abril, Steve Huffman, Diretor Executivo do Reddit, disse ao New York TimesO corpus de dados do Reddit é realmente valioso, mas não precisamos de dar todo esse valor a algumas das maiores empresas do mundo gratuitamente".
O Twitter já começou a cobrar aos utilizadores pelo acesso à sua interface de programação de aplicações (API), frequentemente utilizada por aplicações de terceiros e investigadores, incluindo empresas de IA.
Mas, afinal, de quem são os dados?
Há uma forma de guerrilha digital a decorrer nos servidores que alojam sítios como o Reddit e o Twitter.
Os "scrapers" de dados estão a explorar intensivamente a Internet para alimentar modelos de IA, mesmo quando esses dados não se destinam a ser utilizados dessa forma.
O Reddit, o Twitter, etc., têm todo o direito de reprimir a recolha de dados, mas não é uma tarefa fácil.
A recolha de dados é contrária às condições de serviço destes sítios, mas provavelmente não é ilegal, embora isso dependa da utilização que se faz dos dados.
Na sua essência, a extração de dados é uma forma de invasão digital. Continua a estar na propriedade de alguém, mesmo que não esteja a fazer nada de ilegal.
O Twitter parece estar a desenvolver novas técnicas para travar a recolha de dados, o que certamente faz sentido, dadas as críticas gerais de Musk à indústria da IA e a alguns dos seus principais intervenientes.