Eine Studie des Reuters Institute for the Study of Journalism an der Universität Oxford hat ergeben, dass immer mehr Nachrichtenseiten weltweit die KI-Webcrawler blockieren
Die StudieDie von Dr. Richard Fletcher, Forschungsdirektor am Reuters Institute for the Study of Journalism, verfasste Studie ergab, dass fast die Hälfte (48%) der beliebtesten Nachrichtenseiten weltweit für die Crawler von OpenAI unzugänglich sind, wobei die KI-Crawler von Google bei 24% der Seiten blockiert sind.
Neu @risj_oxford Factsheet von mir, das die Frage stellt: Wie viele Nachrichten-Websites hindern generative KI wie ChatGPT und Gemini daran, ihre Inhalte zum Trainieren ihrer Modelle zu verwenden?
Das hängt von dem jeweiligen Land ab. Es gibt sehr große Unterschiede darin, wie viele Top-Nachrichtenseiten gesperrt werden und wie schnell sie damit beginnen. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22. Februar 2024
KI-Crawler sollen das Internet durchkämmen, um Daten für KI-Modelle wie ChatGPT und Gemini zu sammeln. Dies gewährleistet eine ständige Versorgung mit aktuellen Informationen, die für die Genauigkeit und Relevanz der KI-Antworten von entscheidender Bedeutung sind.
Ohne neue Daten sind KI-Modelle in der Zeit gefangen und nicht mehr in der Lage, sich an die Fortschritte der realen Welt anzupassen. Wenn mWenn die Modelle zu viele minderwertige, synthetische und KI-generierte Daten verwenden, anstatt neue, hochwertige, von Menschen erzeugte Daten zu nutzen, dann könnte sogar ein Modellkollaps drohen.
Warum also blockieren Nachrichtenseiten AI-Webcrawler? In erster Linie geht es ihnen um Urheberrechte und gerechte Entschädigung, um die Befürchtung, Fehlinformationen zu verbreiten, und um den potenziellen Verlust von direktem Traffic auf Nachrichtenseiten.
Die New York Times verklagt OpenAI und Microsoft und schließt sich damit einer Reihe von Autoren, Künstlern und Unternehmen an, die behaupten, dass KI-Entwickler ihre Daten unrechtmäßig verwendet haben.
Die KI-Unternehmen sind sich des Problems bewusst. Deshalb schließen sie Lizenzvereinbarungen mit Medienunternehmen wie OpenAIs Vertrag mit Axel Springer im letzten Jahr.
Inhaltsriese Reddit ist die neueste Unternehmen, um KI-Unternehmen mit millionenschweren Lizenzverträgen für Inhalte zu locken.
Wichtige Erkenntnisse
Hier sind einige wichtige Erkenntnisse aus dem Bericht:
- Ab Ende 2023, 48% prominenter Nachrichtenplattformen auf der ganzen Welt hatten nur eingeschränkten Zugang zu den Crawlern von OpenAI, bei einer geringeren 24% das Gleiche für Googles KI-Crawler zu tun.
- Bemerkenswert, 97% der Websites, die Googles KI blockieren, blockieren auch die Crawler von OpenAI.
- Die Wahrscheinlichkeit, dass Websites KI-Crawler blockieren, ist je nach Land sehr unterschiedlich, wobei die höchsten Raten in den USA zu beobachten sind (79%) und die niedrigsten in Mexiko und Polen (20%).
- Während des gesamten Jahres 2023 wurden keine Fälle verzeichnet, in denen Websites ihre Entscheidung, KI-Crawler zu blockieren, rückgängig machten.
- Größere Nachrichtensender neigten etwas mehr dazu, KI-Crawler zu blockieren als kleinere.
- Die Tendenz zur Sperrung variiert zwischen den verschiedenen Arten von Nachrichtenorganisationen. Alte Printmedien (57%) sind führend bei der Sperrung, verglichen mit digital entstandenen Medien (31%)
Die Nachrichtenunternehmen verstärken offensichtlich ihre Abwehr gegen KI-Webcrawler, und die KI-Unternehmen werden sich wahrscheinlich den Weg freischlagen müssen, um ihre Modelle überzeugend zu aktualisieren.
Die Alternative ist fatal. Die Leistung der KI-Modelle wird sich verbessern, aber das Wissen wird langsam veralten, bis es zu unbefriedigenden Halluzinationsraten, Ungenauigkeit, Redundanz und Irrelevanz kommt.