Große Nachrichtenseiten blockieren zunehmend KI-Webcrawler, so eine Studie

25. Februar 2024

AI-Web-Crawler

Eine Studie des Reuters Institute for the Study of Journalism an der Universität Oxford hat ergeben, dass immer mehr Nachrichtenseiten weltweit die KI-Webcrawler blockieren

Die StudieDie von Dr. Richard Fletcher, Forschungsdirektor am Reuters Institute for the Study of Journalism, verfasste Studie ergab, dass fast die Hälfte (48%) der beliebtesten Nachrichtenseiten weltweit für die Crawler von OpenAI unzugänglich sind, wobei die KI-Crawler von Google bei 24% der Seiten blockiert sind.


KI-Crawler sollen das Internet durchkämmen, um Daten für KI-Modelle wie ChatGPT und Gemini zu sammeln. Dies gewährleistet eine ständige Versorgung mit aktuellen Informationen, die für die Genauigkeit und Relevanz der KI-Antworten von entscheidender Bedeutung sind.

Ohne neue Daten sind KI-Modelle in der Zeit gefangen und nicht mehr in der Lage, sich an die Fortschritte der realen Welt anzupassen. Wenn mWenn die Modelle zu viele minderwertige, synthetische und KI-generierte Daten verwenden, anstatt neue, hochwertige, von Menschen erzeugte Daten zu nutzen, dann könnte sogar ein Modellkollaps drohen

Warum also blockieren Nachrichtenseiten AI-Webcrawler? In erster Linie geht es ihnen um Urheberrechte und gerechte Entschädigung, um die Befürchtung, Fehlinformationen zu verbreiten, und um den potenziellen Verlust von direktem Traffic auf Nachrichtenseiten. 

Die New York Times verklagt OpenAI und Microsoft und schließt sich damit einer Reihe von Autoren, Künstlern und Unternehmen an, die behaupten, dass KI-Entwickler ihre Daten unrechtmäßig verwendet haben.

Die KI-Unternehmen sind sich des Problems bewusst. Deshalb schließen sie Lizenzvereinbarungen mit Medienunternehmen wie OpenAIs Vertrag mit Axel Springer im letzten Jahr.

Inhaltsriese Reddit ist die neueste Unternehmen, um KI-Unternehmen mit millionenschweren Lizenzverträgen für Inhalte zu locken. 

Wichtige Erkenntnisse

Hier sind einige wichtige Erkenntnisse aus dem Bericht:

  • Ab Ende 2023, 48% prominenter Nachrichtenplattformen auf der ganzen Welt hatten nur eingeschränkten Zugang zu den Crawlern von OpenAI, bei einer geringeren 24% das Gleiche für Googles KI-Crawler zu tun.
  • Bemerkenswert, 97% der Websites, die Googles KI blockieren, blockieren auch die Crawler von OpenAI.
  • Die Wahrscheinlichkeit, dass Websites KI-Crawler blockieren, ist je nach Land sehr unterschiedlich, wobei die höchsten Raten in den USA zu beobachten sind (79%) und die niedrigsten in Mexiko und Polen (20%).
  • Während des gesamten Jahres 2023 wurden keine Fälle verzeichnet, in denen Websites ihre Entscheidung, KI-Crawler zu blockieren, rückgängig machten.
  • Größere Nachrichtensender neigten etwas mehr dazu, KI-Crawler zu blockieren als kleinere.
  • Die Tendenz zur Sperrung variiert zwischen den verschiedenen Arten von Nachrichtenorganisationen. Alte Printmedien (57%) sind führend bei der Sperrung, verglichen mit digital entstandenen Medien (31%)

Die Nachrichtenunternehmen verstärken offensichtlich ihre Abwehr gegen KI-Webcrawler, und die KI-Unternehmen werden sich wahrscheinlich den Weg freischlagen müssen, um ihre Modelle überzeugend zu aktualisieren. 

Die Alternative ist fatal. Die Leistung der KI-Modelle wird sich verbessern, aber das Wissen wird langsam veralten, bis es zu unbefriedigenden Halluzinationsraten, Ungenauigkeit, Redundanz und Irrelevanz kommt.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen