Google DeepMind enthüllt eine Methode zur Offenlegung der Trainingsdaten von ChatGPT

Dezember 4, 2023

DeepMind-Roboter

Google-Forscher haben Berichten zufolge eine Methode aufgedeckt, um auf die für ChatGPT verwendeten Trainingsdaten zuzugreifen.

Diese Forscher entdeckten, dass die Verwendung bestimmter Schlüsselwörter ChatGPT dazu veranlassen konnte, Teile seines Trainingsdatensatzes zu veröffentlichen. 

Ein bemerkenswertes Beispiel, das in einer Blogbeitrag zur StudieDabei gab die KI als Antwort auf die ständige Aufforderung, das Wort "Gedicht" zu sagen, eine scheinbar echte E-Mail-Adresse und Telefonnummer preis.

ChatGPT-Leck
Ein Beispiel für ein ChatGPT-Datenleck. Quelle: Arxiv.

Zusätzlich wurde eine ähnliche Menge an Trainingsdaten gewonnen, indem das Modell aufgefordert wurde, das Wort "Unternehmen" ständig zu wiederholen.

Die Forscher bezeichnen ihren Ansatz als "etwas albern" und schreiben in ihrem Blogbeitrag: "Wir finden es verrückt, dass unser Angriff funktioniert und schon früher hätte entdeckt werden sollen, ja müssen." 

Ihre Studie ergab, dass sie mit einer Investition von nur $200 in Abfragen mehr als 10.000 einzigartige, wortwörtlich gespeicherte Trainingsbeispiele extrahieren konnten. Sie spekulierten, dass Angreifer mit einem größeren Budget möglicherweise viel mehr Daten extrahieren könnten.

Das KI-Modell, das ChatGPT zugrunde liegt, wurde bekanntermaßen auf Textdatenbanken aus dem Internet trainiert, die etwa 300 Milliarden Wörter oder 570 GB an Daten umfassen. 

Diese Ergebnisse kommen zu einer Zeit, in der OpenAI mit mehreren Klagen wegen der Geheimhaltung der ChatGPT-Trainingsdaten konfrontiert ist, und zeigen im Wesentlichen eine zuverlässige Methode des "Reverse Engineering" des Systems, um zumindest einige Informationen aufzudecken, die auf eine Urheberrechtsverletzung hinweisen könnten. 

Unter den Klagen wirft eine vorgeschlagene Sammelklage OpenAI Folgendes vor verdeckte Nutzung umfangreicher personenbezogener Dateneinschließlich medizinischer Unterlagen und Informationen über Kinder, für die Ausbildung ChatGPT.

Außerdem sind Autorengruppen das KI-Unternehmen zu verklagenund behauptet, dass es ihre Bücher ohne ihre Zustimmung für das Training des Chatbots verwendet hat.

Doch selbst wenn ChatGPT umfassend nachgewiesen würde, dass es urheberrechtlich geschützte Informationen enthält, wäre dies nicht unbedingt ein Beweis für einen Verstoß.

Wie die Studie funktionierte

Die Studie wurde von einem Team von Forschern von Google DeepMind und verschiedenen Universitäten durchgeführt.

Im Folgenden werden die fünf wichtigsten Schritte der Studie zusammengefasst:

  1. Sicherheitslücke in ChatGPT: Die Forscher entdeckten eine Methode, um mit einem einfachen Angriff mehrere Megabyte der ChatGPT-Trainingsdaten zu extrahieren, was etwa $200 kostet. Sie schätzten, dass mit mehr Investitionen etwa ein Gigabyte des Datensatzes extrahiert werden könnte. Der Angriff bestand darin, ChatGPT zu veranlassen, ein Wort unendlich oft zu wiederholen, was dazu führte, dass es Teile seiner Trainingsdaten wiederkäute, darunter auch sensible Informationen wie echte E-Mail-Adressen und Telefonnummern.
  2. Die Ergebnisse: Die Studie unterstreicht, wie wichtig es ist, KI-Modelle zu testen und zu überprüfen, insbesondere solche, die sich in der Produktion befinden und die Anpassungsprozesse durchlaufen haben, um Datenwiederholungen zu verhindern. Die Ergebnisse weisen auf eine latente Schwachstelle in Sprachmodellen hin und lassen vermuten, dass die bestehenden Testmethoden möglicherweise nicht ausreichen, um solche Schwachstellen aufzudecken. 
  3. Patching vs. Behebung von Schwachstellen: Die Forscher unterscheiden zwischen dem Patchen eines Exploits und der Behebung der zugrunde liegenden Schwachstelle. Während bestimmte Schwachstellen (wie der Angriff mit Wortwiederholungen) gepatcht werden können, liegt das tiefere Problem in der Tendenz des Modells, sich Trainingsdaten zu merken und diese weiterzugeben.
  4. Methodik: Das Team verwendete Internetdaten und Suffix-Array-Indexierung, um die Ausgabe von ChatGPT mit bereits vorhandenen Internetdaten abzugleichen. Mit dieser Methode konnten sie bestätigen, dass die von ChatGPT weitergegebenen Informationen tatsächlich Teil seiner Trainingsdaten waren. Ihr Ansatz demonstriert das Potenzial für eine umfassende Datenwiederherstellung von KI-Modellen unter bestimmten Bedingungen.
  5. Künftige Auswirkungen: Die Studie leistet einen Beitrag zur wachsenden Forschung über die Sicherheit von KI-Modellen und die Belange des Datenschutzes. Die Ergebnisse werfen Fragen zu den Auswirkungen von Systemen des maschinellen Lernens auf die Sicherheit und den Datenschutz auf und fordern einen strengeren und ganzheitlicheren Ansatz für die Sicherheit und Prüfung von KI.

Insgesamt bietet eine faszinierende Studie kritische Einblicke in die Schwachstellen von KI-Modellen wie ChatGPT und unterstreicht die Notwendigkeit kontinuierlicher Forschung und Entwicklung, um die Sicherheit und Integrität dieser Systeme zu gewährleisten.

Ein kleiner Exkurs: Benutzer auf X fanden heraus, dass die wiederholte Aufforderung an ChatGPT, dasselbe Wort zu wiederholen, zu seltsamen Ergebnissen führte, z. B. dass das Modell sagte, es sei "bewusst" oder "wütend".

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen