Eine neue Studie zeigt die Komplexität des in der Datenschutz-Grundverordnung verankerten "Rechts auf Vergessenwerden" (RTBF) im Zusammenhang mit KI auf.
Dieses auch als Recht auf Löschung bekannte Recht gibt Einzelpersonen die Macht, von Technologieunternehmen die dauerhafte Löschung ihrer personenbezogenen Daten zu verlangen. Im Zusammenhang mit großen Sprachmodellen (LLMs) und KI-Chatbots gibt es jedoch keine einfache Möglichkeit, das Modelltraining rückgängig zu machen, um bestimmte Daten zu löschen.
Das Recht auf Vergessenwerden geht über die europäische Datenschutz-Grundverordnung hinaus. Vergleichbare Rechtsvorschriften gibt es in Kanada (CCPA), Japan (APPI) und mehreren anderen Ländern. Ursprünglich waren RTBF-Verfahren in erster Linie für Suchmaschinen gedacht, so dass es für Unternehmen wie Google und Microsoft relativ einfach war, bestimmte Daten zu finden und aus ihren Webindizes zu entfernen.
Forscher der Data61 Business Unit, einer Abteilung der australischen National Science Agency, die sich auf KI, Robotik und Cybersicherheit spezialisiert hat, untersuchten RTBF für KI in einem aktuelle Studie.
Sie wollten untersuchen, ob und wie RTBF in einer neuen Ära von KI-Modellen funktionieren könnte, die auf riesigen Datenmengen aus dem Internet trainiert werden. Diese Daten enthalten Namen und wahrscheinlich auch andere personenbezogene Daten (PII).
In einigen Fällen können KI falsche oder sogar verleumderische Informationen über Personen ausgeben. In den letzten Monaten war OpenAI in folgende Angelegenheiten verwickelt mehrere VerleumdungsfälleIn der Ausgabe wird einem Mann Betrug und einem anderen sexuelle Nötigung vorgeworfen, was in beiden Fällen nicht zutrifft.
In jeder dieser Situationen sollte die Löschung der Daten, die zu den Anschuldigungen geführt haben, ein absolutes Minimum sein.
Die Forscher weisen jedoch darauf hin, dass Algorithmen des maschinellen Lernens (ML) nicht so einfach zu handhaben sind wie Suchmaschinen.
Sie heben hervor, dass LLMs Informationen "auf eine völlig andere Art und Weise" speichern und verarbeiten als der von Suchmaschinen verwendete Indexierungsansatz.
Und woher wissen Sie überhaupt, ob Ihre persönlichen Daten in dem Modell enthalten sind? Den Forschern zufolge können Nutzer nur dann von ihren persönlichen Daten in LLMs erfahren, "wenn sie entweder den ursprünglichen Trainingsdatensatz inspizieren oder vielleicht das Modell dazu auffordern". Auf letztere Weise hat Mark Walters aus Georgia, USA, herausgefunden, dass sein Name in einigen der ChatGPT-Ausgaben mit Betrug in Verbindung gebracht wird.
ChatGPT sagte über Walters: "Mark Walters ('Walters') ist eine Einzelperson mit Wohnsitz in Georgia...Walters hat diese Pflichten und Verantwortlichkeiten verletzt, indem er unter anderem Gelder und Vermögenswerte der SAF zu seinem eigenen Vorteil veruntreut und veruntreut hat und die Finanzunterlagen und Bankauszüge der SAF manipuliert hat, um seine Aktivitäten zu verbergen."
Auch wenn KI-Dienste eine Herausforderung für das Recht auf Vergessenwerden darstellen, bedeutet das nicht, dass sie von der Einhaltung der Datenschutzrechte befreit sind.
Die Forscher schlagen verschiedene Strategien zur Eliminierung von Daten aus KI-Trainingsmodellen vor, darunter die SISA-Technik (Machine Unlearning), Inductive Graph Unlearning und Approximate Data Deletion.
Diese Methoden könnten KI-Entwickler in die Lage versetzen, ihre Datensätze zuverlässig zu untersuchen und bestimmte Daten zu entfernen, um die RTBF zu wahren.
Können Sie Ihre Daten aus KI-Modellen wie ChatGPT entfernen?
OpenAI hat Verfahren eingeführt, mit denen Einzelpersonen die Löschung personenbezogener Daten in KI-Modellen beantragen und der künftigen Verwendung von Daten für das Training von KI widersprechen können.
Dieser Artikel deckt verschiedene Aspekte der Datenschutzpolitik von OpenAI ab, darunter auch das Recht auf Löschung, das über folgende Adresse beantragt werden kann dieses Formular. Die konkrete Handhabung dieser Anträge bleibt nebulös, und es gibt nur wenige Belege dafür, dass Menschen erfolgreich RTBF-Anträge stellen.
Darüber hinaus können die Nutzer einen Antrag auf Zugang zu den Daten stellen, um die durch die DSGVO gewährten Rechte wie die Berichtigung, Einschränkung oder Übertragung von Daten auszuüben.
OpenAI merkte jedoch an, dass die Korrektur ungenauer Daten, die von seinen Modellen generiert werden, derzeit nicht machbar ist, so dass eine Löschung wahrscheinlich die Lösung wäre.
Trotz dieser Mechanismen warnte OpenAI, dass es Anfragen aufgrund rechtlicher Beschränkungen und der Abwägung zwischen Datenschutzanfragen und Meinungsfreiheit ablehnen oder nur teilweise bearbeiten könnte.
OpenAI bietet auch eine Opt-out-Möglichkeit für Nutzer, die nicht möchten, dass ihre Daten für das KI-Training verwendet werden, und zwar über die ChatGPT-Kontoeinstellungen.
OpenAI stellt die folgende E-Mail-Adresse für den Schriftverkehr in dieser Angelegenheit zur Verfügung: [email protected].
Natürlich ist ChatGPT nicht die einzige KI, die auf offenen Internetdaten trainiert wurde. Jeder, der seine persönlichen Daten aus allen großen öffentlichen KI-Chatbots entfernen möchte, muss jeden Entwickler einzeln kontaktieren.
Die Realität sieht so aus, dass die meisten im Internet veröffentlichten Daten für KI-Unternehmen zum Greifen nah sind, und es ist äußerst schwierig, Daten aus Modellen zu entfernen.