Elon Musk begrænser, hvor mange tweets brugerne kan se, for at dæmme op for data-scraping

3. juli 2023

AI twitter

Elon Musk har midlertidigt begrænset antallet af tweets, som brugerne kan se på en dag. Det beskrives som en "midlertidig nødforanstaltning".

I sit eget tweet fortalte Musk, at ubekræftede konti nu har en grænse på at læse 1.000 indlæg om dagen. Nye ubekræftede konti har en grænse på 500 indlæg, mens dem med "verificeret" status i øjeblikket er begrænset til at se 10.000 indlæg om dagen.

Oprindeligt havde Musk indført strengere grænser, men reviderede dem inden for få timer efter annonceringen.

Musk udtalte at disse midlertidige begrænsninger var en reaktion på "ekstreme niveauer af dataskrabning og systemmanipulation".

I fredags sagde han: "Vi blev plyndret så meget for data, at det forringede servicen for normale brugere", efter at brugerne så skærme, hvor de blev bedt om at logge ind for at se Twitter-indhold. 

Musk satte oprindeligt læsegrænser på 6.000 indlæg om dagen for verificerede konti, 600 for uverificerede konti og 300 for nye uverificerede konti. I en efterfølgende opdatering sagde Musk, at "flere hundrede organisationer, måske flere, skrabede Twitter-data ekstremt aggressivt." 

Data scraping er udtræk af information fra internettet.

For at kunne opbygge komplekse store sprogmodeller (LLM'er) har AI-virksomheder brug for data fra rigtige menneskelige samtaler og wHvor er det bedre at lede efter disse data end på internettet? For at indsamle sådanne data gennemsøger bots utrætteligt sider som Twitter og udtrækker tekstdata. 

Men selvom de er tilgængelige for offentligheden, er mange af disse data ikke til fri afbenyttelse. Platforme som Twitter og Reddit ønsker at blive betalt for deres data. 

Desuden belaster dataskrabende bots serverne. Musk, som er kritisk over for AI, sagde: "Det er ret irriterende at være nødt til at sætte et stort antal servere online i nødstilfælde bare for at lette en eller anden AI-startups uhyrlige værdiansættelse."

På samme måde sagde Steve Huffman, Reddits CEO, i april, fortalte New York Times"Reddits datakorpus er virkelig værdifuldt, men vi behøver ikke at give al den værdi gratis til nogle af verdens største virksomheder."

Twitter er allerede begyndt at opkræve betaling for adgang til sin API (Application Programming Interface), som ofte bruges af tredjepartsapps og forskere, herunder AI-virksomheder.

Men hvis data er det egentlig?

Der foregår en form for digital guerillakrig på de servere, der hoster sider som Reddit og Twitter.

Dataskrabere udnytter internettet intensivt til at drive AI-modeller, selv når disse data ikke er beregnet til at blive brugt på den måde. 

Reddit, Twitter osv. er i deres fulde ret til at slå ned på data-crawling, men det er ikke nogen nem opgave. 

Scraping er i strid med disse siders servicevilkår, men sandsynligvis ikke ulovligt - det afhænger dog af, hvad du bruger dataene til.

I bund og grund er data scraping en form for digital indtrængen. Du er stadig på nogens ejendom, selv om du ikke gør noget ulovligt. 

Twitter ser ud til at udvikle nye teknikker til at begrænse dataskrabning, hvilket bestemt giver mening i betragtning af Musks generelle kritik af AI-industrien og nogle af dens nøgleaktører.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser