Perplexity AI steht im Zentrum eines Feuersturms wegen seiner Datenerfassungspraktiken.
Perplexity verbindet im Wesentlichen eine Suchmaschine mit generativer KI und liefert KI-generierte Inhalte, die sich auf die Suchanfrage des Nutzers beziehen.
Zu den Verfahren, die dies ermöglichen, gehört wahrscheinlich das Scraping von Inhalten zahlreicher Websites, auch solcher, die dies ausdrücklich verbieten.
Der Skandal brach am 11. Juni aus, als Forbes berichtet dass Perplexity einen ganzen Artikel von seiner Website übernommen hatte, komplett mit eigenen Illustrationen, und ihn mit nur minimaler Quellenangabe weiterverwendet hatte.
Kurze Zeit später veröffentlichte WIRED eine Untersuchung durchgeführt die Beweise dafür lieferte, dass Perplexity Inhalte von Websites ausliest, die eine automatische Datenerfassung verbieten.
Eine Website kann über eine Datei namens "robots.txt" verlangen, dass ihre Inhalte nicht von Web-Crawlern ausgewertet werden.
Dieses Ausschlussprotokoll kommuniziert mit Webcrawlern und anderen automatisierten Bots. Es handelt sich um eine einfache Textdatei auf dem Server einer Website, die angibt, auf welche Seiten oder Abschnitte der Website nicht zugegriffen werden darf.
Die robots.txt-Datei ist seit den Anfängen des Internets eine weithin respektierte Konvention. Sie hilft Website-Besitzern, ihre Inhalte zu kontrollieren und die unerlaubte Sammlung von Daten zu verhindern.
Obwohl nicht rechtsverbindlich, gilt es seit langem als bewährte Praxis, dass Web-Crawler die Anweisungen in der robots.txt-Datei einer Website befolgen.
Jason Kint, CEO von Digitale Inhalte Weitereine Handelsgruppe, die Online-Verleger vertritt, nahm kein Blatt vor den Mund, als er die Web-Scraping-Verfahren von Perplexity bewertete.
"Standardmäßig sollten KI-Unternehmen davon ausgehen, dass sie kein Recht haben, Inhalte von Verlagen ohne Erlaubnis zu übernehmen und weiterzuverwenden", sagte er.
"Wenn Perplexity die Nutzungsbedingungen oder robots.txt umgeht, sollten die Alarmglocken läuten, dass hier etwas Unangemessenes vor sich geht."
Amazon untersucht
Diese Enthüllungen haben Amazon Web Services (AWS), das einen Server hostet, der in Perplexitys mutmaßlich unzulässiges Scraping verwickelt ist, veranlasst, eine Untersuchung einzuleiten.
AWS verbietet seinen Kunden strengstens missbräuchliche oder illegale Aktivitäten, die gegen seine Nutzungsbedingungen verstoßen.
Der CEO von Perplexity, Aravind Srinivas, wischte die Bedenken zunächst beiseite und behauptete, sie spiegelten "ein tiefes und grundlegendes Missverständnis" der Geschäftstätigkeit des Unternehmens und des Internets im Allgemeinen wider.
In einer späteren Interview mit Fast CompanyEr räumte ein, dass Perplexity sich für das Crawling und die Indexierung auf einen ungenannten Drittanbieter verlässt, was darauf hindeutet, dass dieser für etwaige robots.txt-Verletzungen verantwortlich ist.
Srinivas lehnte es unter Berufung auf eine Geheimhaltungsvereinbarung ab, das Unternehmen zu nennen.
Im Moment scheint Perplexity entschlossen zu sein, dem Sturm zu trotzen. Ein Sprecher spielte die AWS-Untersuchung als "Standardverfahren" herunter und wies darauf hin, dass das Unternehmen keine Änderungen an seinem Betrieb vorgenommen hat.
Die trotzige Haltung des Start-ups könnte sich jedoch als unhaltbar erweisen, da die Besorgnis über die Datenpraktiken von KI immer größer wird.