Stanford-Forscher identifizieren illegale Kinderbilder im LAION-Datensatz

Dezember 21, 2023

Datensatz LAION

In einer vom Stanford Internet Observatory durchgeführten Studie wurden in der LAION-Datenbank, einem groß angelegten Index von Online-Bildern und -Beschriftungen, die zum Trainieren von KI-Bildgeneratoren wie Stable Diffusion verwendet werden, mehr als 3.200 Bilder mit Verdacht auf sexuellen Kindesmissbrauch identifiziert. 

In Zusammenarbeit mit dem kanadischen Zentrum für Kinderschutz und anderen Anti-Missbrauchs-Organisationen überprüfte das Stanford-Team die Datenbank und meldete seine Ergebnisse den Strafverfolgungsbehörden. LAION enthält Milliarden von Bildern, die durch unkontrolliertes Web-Scraping gewonnen wurden. 

Über 1.000 dieser Bilder wurden später als Material über sexuellen Kindesmissbrauch bestätigt. Die Informationen wurden in einem Papier veröffentlicht, "Identifizierung und Eliminierung von CSAM in generativen ML-Trainingsdaten und -modellen."

Die Forscher erklärten: "Wir stellen fest, dass der Besitz eines LAION-5B-Datensatzes, der sogar noch Ende 2023 bevölkert ist, den Besitz von Tausenden illegaler Bilder impliziert", was die Natur von im Internet gescrapten Datensätzen und ihren völlig ungeprüften und ungeprüften Inhalt unterstreicht. 

KI-Bildgeneratoren wurden in eine Reihe von Fällen von sexuellem Kindesmissbrauch und Pornografie verwickelt. Ein Mann aus North Carolina wurde kürzlich 40 Jahre lang inhaftiert nachdem er im Besitz von KI-generierten Bildern von Kindesmissbrauch gefunden wurde. Dies ist vielleicht das weltweit erste Beispiel dafür, dass jemand für ein solches Verbrechen vor Gericht gestellt wurde. 

LAION, eine Abkürzung für Large-scale Artificial Intelligence Open Network, hat seine Datensätze umgehend aus dem öffentlichen Zugriff genommen.

LAION gab daraufhin eine Erklärung ab, in der es seine Null-Toleranz-Politik gegenüber illegalen Inhalten und seine Verpflichtung zur Gewährleistung der Sicherheit seiner Datensätze vor deren erneuter Veröffentlichung betonte.

Da diese Daten verwendet wurden, um populäre Modelle zu trainieren, können sie diese zur Generierung völlig neuer Inhalte "nutzen", was bereits geschieht. Eine Untersuchung hat ergeben, dass die Menschen diese Art von Bildern erstellen und sie auf Websites wie Patreon zu verkaufen

Die Forscher stellten fest, dass KI-Tools wahrscheinlich auch kriminelle Inhalte synthetisieren, indem sie Bilder aus verschiedenen Kategorien von Online-Bildern - Erwachsenenpornografie und harmlose Fotos von Kindern - zusammenführen.

David Thiel, der Cheftechnologe des Stanford Internet Observatory und Autor des Berichts, betonte, wie diese Probleme entstehen, und verwies auf die überstürzte Einführung vieler KI-Projekte in der wettbewerbsorientierten Tech-Landschaft.

In einem Interview sagte er: "Einen kompletten Internet-Scrape zu nehmen und diesen Datensatz zum Trainieren von Modellen zu verwenden, ist etwas, das, wenn überhaupt, auf einen Forschungsbetrieb beschränkt sein sollte, und es ist nicht etwas, das ohne eine sehr viel strengere Aufmerksamkeit als Open Source veröffentlicht werden sollte."

Das Stanford Internet Observatory hat diejenigen, die auf LAION-5B basierende Trainingssätze erstellen, aufgefordert, diese entweder zu löschen oder mit Vermittlern zusammenzuarbeiten, um das Material zu bereinigen. Sie empfiehlt außerdem, ältere Versionen von Stable Diffusion, insbesondere solche, die für die Erzeugung expliziten Bildmaterials bekannt sind, online weniger zugänglich zu machen.

Stabilität AI erklärte, dass sie nur gefilterte Versionen von Stable Diffusion hosten und proaktive Schritte unternommen haben, um das Risiko des Missbrauchs zu verringern. 

Lloyd Richardson, der IT-Direktor des kanadischen Zentrums für Kinderschutz, kommentierte die Unumkehrbarkeit des Problems mit den Worten: "Wir können das nicht mehr zurücknehmen. Dieses Modell befindet sich in den Händen vieler Menschen auf ihren lokalen Rechnern".

Frühere Forschung in LAION

Die Stanford-Studie ist nicht die erste Studie, die sich mit Datenbanken wie LAION befasst.

Im Jahr 2021 haben die Informatikforscher Abeba Birhane, Vinay Uday Prabhu und Emmanuel Kahembwe veröffentlicht "Multimodale Datensätze: Frauenfeindlichkeit, Pornografie und bösartige Stereotypen", in dem der LAION-400M-Bilddatensatz analysiert wurde.

In ihrem Papier heißt es: "Wir haben festgestellt, dass der Datensatz problematische und explizite Bilder und Textpaare von Vergewaltigung, Pornografie, bösartigen Stereotypen, rassistischen und ethnischen Verunglimpfungen und anderen äußerst problematischen Inhalten enthält."

In dieser Studie wurde auch festgestellt, dass die für die Bilder verwendeten Bezeichnungen häufig bewusste und unbewusste Voreingenommenheit widerspiegeln oder repräsentieren, was wiederum die KI-Modelle, die anhand der Daten trainiert werden, verzerrt.

Zahlreiche bisherige Forschung hat den Zusammenhang zwischen verzerrten Datensätzen und verzerrten Modellergebnissen untersucht. Zu den Auswirkungen gehören sexistische oder geschlechtsspezifische Modelle, die die Fähigkeiten von Frauen als weniger wertvoll einstufen als die von Männern, diskriminierende und ungenaue Gesichtserkennungssysteme und sogar Fehler in medizinischen KI-Systemen, die darauf ausgelegt sind, potenziell krebserregende Hautläsionen bei Menschen mit dunklerer Haut zu untersuchen.

Neben missbräuchlichem Material über Kinder, das die illegale Nutzung von KI-Modellen erleichtert, treten Probleme in Datensätzen während des gesamten Lebenszyklus des maschinellen Lernens auf und bedrohen schließlich die Freiheit, die soziale Stellung und die Gesundheit von Menschen.

Als Reaktion auf die Stanford-Studie über X, einen Mitverfasser des oben genannten Papiers und andere, die LAION und die damit verbundenen Auswirkungen der zugrundeliegenden Daten auf die Modellergebnisse untersuchen, wies Abeba Birhane darauf hin, dass Stanford frühere Forschungen zu diesem Thema nicht ausreichend erörtert habe.

Birhane betont, dass es sich hierbei um ein systematisches Problem handelt, da akademische Hochburgen wie Stanford dazu neigen, ihre Forschung als bahnbrechend darzustellen, obwohl dies oft nicht der Fall ist.

Für Birhane ist dies ein Hinweis auf das umfassendere Problem der "Auslöschung" in der akademischen Welt, in der Forschungen, die von Personen mit unterschiedlichem Hintergrund und außerhalb der US-amerikanischen Technologielandschaft durchgeführt werden, nur selten angemessen gewürdigt werden.

Im Oktober veröffentlichten wir einen Artikel über AI-Kolonialismusund zeigt, wie KI-Wissen, -Ressourcen und -Datensätze in einigen wenigen Regionen und akademischen Einrichtungen hyperlokalisiert sind.

Zusammengenommen werden sprachliche, kulturelle und ethnische Vielfalt in der Branche zunehmend und systematisch unterrepräsentiert, und zwar sowohl in der Forschung als auch bei den Daten und damit auch bei den Modellergebnissen.

Für einige in der Branche ist dies eine tickende Zeitbombe. Beim Training extrem leistungsstarker "superintelligenter" Modelle oder künstlicher allgemeiner Intelligenz (AGI) könnte das Vorhandensein solcher Inhalte in Datensätzen weitreichende Folgen haben.

Wie Birhane und Co-Forscher in ihrer Studie betonen: "Es gibt eine wachsende Gemeinschaft von KI-Forschern, die glauben, dass ein Weg zu künstlicher allgemeiner Intelligenz (Artificial General Intelligence, AGI) über das Training großer KI-Modelle mit "allen verfügbaren Daten" führt."

"Der Ausdruck "alle verfügbaren Daten" umfasst oft eine große Menge von Daten, die aus dem WWW gesammelt wurden (d. h. Bilder, Videos und Texte)... [wie gesehen] enthalten diese Daten Bilder und Texte, die Gruppen wie Frauen grob falsch darstellen, schädliche Stereotypen verkörpern, schwarze Frauen übermäßig sexualisieren und asiatische Frauen fetischisieren. Darüber hinaus werden in groß angelegten Internet-Datensätzen auch illegale Inhalte wie Bilder von sexuellem Missbrauch, Vergewaltigung und nicht einvernehmliche explizite Bilder erfasst".

KI-Unternehmen reagieren auf die Stanford-Studie

OpenAI hat klargestellt, dass es die LAION-Datenbank nicht verwendet und seine Modelle feinabgestimmt hat, um Anfragen nach sexuellen Inhalten, die Minderjährige betreffen, abzulehnen. 

Google, das einen LAION-Datensatz zur Entwicklung seines Text-Bild-Imagen-Modells verwendet hat, entschied sich gegen eine Veröffentlichung, nachdem eine Prüfung eine Reihe von unangemessenen Inhalten ergeben hatte.

Die rechtlichen Risiken, denen sich KI-Entwickler aussetzen, wenn sie Datensätze wahllos und ohne angemessene Sorgfaltspflicht verwenden, sind potenziell enorm. 

Wie Stanford vorschlägt, müssen Entwickler ihre Verantwortung bei der Entwicklung von KI-Modellen und -Produkten besser wahrnehmen. 

Darüber hinaus müssen die KI-Unternehmen unbedingt besser mit den Forschungsgemeinschaften und Modellentwicklern zusammenarbeiten, um das Risiko der Freigabe von Modellen für solche Daten zu betonen.

Wie frühere Untersuchungen gezeigt haben, ist es ein Leichtes, Modelle zu "knacken", um sie dazu zu bringen, die Sicherheitsvorkehrungen zu umgehen.

Was könnte zum Beispiel passieren, wenn jemand ein extrem intelligentes AGI-System, das auf Kindesmissbrauch, diskriminierendes Material, Folter usw. trainiert ist, aus dem Gefängnis holen würde?

Diese Frage ist für die Industrie schwer zu beantworten. Der ständige Verweis auf Leitplanken, die immer wieder ausgenutzt und manipuliert werden, ist eine Haltung, die sich abnutzen könnte.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen