Elon Musk hat die Anzahl der Tweets, die Nutzer an einem Tag sehen können, vorübergehend eingeschränkt. Dies wird als "vorübergehende Notfallmaßnahme" bezeichnet.
In seinem eigenen Tweet teilte Musk mit, dass nicht verifizierte Konten jetzt ein Limit von 1.000 Beiträgen pro Tag haben. Für neue, nicht verifizierte Konten gilt ein Limit von 500 Beiträgen, während Konten mit dem Status "verifiziert" derzeit auf 10.000 Beiträge pro Tag beschränkt sind.
Ursprünglich hatte Musk strengere Grenzwerte festgelegt, diese aber bereits wenige Stunden nach der Ankündigung revidiert.
Um dem extremen Ausmaß von Data Scraping und Systemmanipulation entgegenzuwirken, haben wir die folgenden vorübergehenden Beschränkungen eingeführt:
- Verifizierte Konten können maximal 6000 Beiträge pro Tag lesen.
- Nicht überprüfte Konten bis 600 Beiträge/Tag
- Neue ungeprüfte Konten bis 300/Tag- Elon Musk (@elonmusk) 1. Juli 2023
Musk erklärte dass diese vorübergehenden Beschränkungen eine Reaktion auf "extremes Auslesen von Daten und Systemmanipulation" waren.
Am Freitag stellte er fest: "Wir wurden so sehr mit Daten geplündert, dass der Service für normale Nutzer beeinträchtigt wurde", nachdem die Nutzer Bildschirme sahen, die sie aufforderten, sich einzuloggen, um Twitter-Inhalte zu sehen.
Musk legte zunächst eine Lesegrenze von 6.000 Beiträgen pro Tag für verifizierte Konten, 600 für nicht verifizierte Konten und 300 für neue, nicht verifizierte Konten fest. In einem späteren Update erklärte Musk, dass "mehrere hundert Organisationen, vielleicht auch mehr, Twitter-Daten extrem aggressiv auslesen".
Data Scraping ist die Extraktion von Informationen aus dem Internet.
Um komplexe große Sprachmodelle (LLMs) zu erstellen, benötigen KI-Unternehmen Daten aus echten menschlichen Gesprächen und wWo könnte man besser nach diesen Daten suchen als im Internet? Um solche Daten zu sammeln, crawlen Bots unermüdlich Websites wie Twitter und extrahieren Textdaten.
Viele dieser Daten stehen zwar der Öffentlichkeit zur Verfügung, sind aber nicht zum Nulltarif zu haben. Plattformen wie Twitter und Reddit wollen für ihre Daten bezahlt werden.
Außerdem belasten Bots, die Daten abgreifen, die Server. Musk, der der KI kritisch gegenübersteht, sagte: "Es ist ziemlich ärgerlich, wenn man im Notfall eine große Anzahl von Servern online stellen muss, nur um die unverschämte Bewertung eines KI-Startups zu ermöglichen."
Ähnlich verhielt es sich im April mit Steve Huffman, dem CEO von Reddit, gegenüber der New York TimesDer Datenbestand von Reddit ist wirklich wertvoll, aber wir müssen diesen Wert nicht kostenlos an einige der größten Unternehmen der Welt abgeben.
Twitter hat bereits damit begonnen, Nutzern den Zugang zu seiner Anwendungsprogrammierschnittstelle (API) in Rechnung zu stellen, die häufig von Drittanbieter-Apps und Forschern, einschließlich KI-Unternehmen, genutzt wird.
Aber wessen Daten sind das überhaupt?
Auf den Servern, die Websites wie Reddit und Twitter hosten, findet eine Art digitaler Guerillakrieg statt.
Data Scraper durchforsten das Internet intensiv, um KI-Modelle zu entwickeln, selbst wenn diese Daten nicht für eine solche Verwendung vorgesehen sind.
Reddit, Twitter usw. haben durchaus das Recht, gegen das Crawlen von Daten vorzugehen, aber das ist keine leichte Aufgabe.
Scraping verstößt gegen die Nutzungsbedingungen dieser Websites, ist aber wahrscheinlich nicht illegal - das hängt allerdings davon ab, wofür Sie die Daten verwenden.
Im Grunde genommen ist Data Scraping eine Form des digitalen Hausfriedensbruchs. Sie befinden sich immer noch auf dem Grundstück eines anderen, auch wenn Sie nichts Illegales tun.
Twitter scheint neue Techniken zu entwickeln, um das Daten-Scraping einzudämmen, was angesichts der allgemeinen Kritik von Musk an der KI-Branche und einigen ihrer Hauptakteure durchaus Sinn macht.