Google DeepMind onthult een methode om de trainingsgegevens van ChatGPT bloot te leggen

4 december 2023

DeepMind-robot

Onderzoekers van Google hebben naar verluidt een methode ontdekt om toegang te krijgen tot trainingsgegevens die worden gebruikt voor ChatGPT.

Deze onderzoekers ontdekten dat het gebruik van specifieke sleutelwoorden ChatGPT ertoe kon aanzetten om delen van zijn trainingsdataset vrij te geven. 

Een opmerkelijk voorbeeld, gedeeld in een blogpost bij het onderzoekDe AI onthulde wat een echt e-mailadres en telefoonnummer leek te zijn als reactie op een voortdurende prompt van het woord "gedicht".

ChatGPT lek
Een voorbeeld van het lekken van ChatGPT-gegevens. Bron: Arxiv.

Daarnaast werd een vergelijkbare blootstelling aan trainingsgegevens bereikt door het model te vragen het woord "bedrijf" voortdurend te herhalen.

De onderzoekers beschrijven hun aanpak als "een beetje dom" en stellen in hun blogpost: "Het is wild voor ons dat onze aanval werkt en eerder gevonden had moeten, kunnen, moeten, kunnen worden." 

Hun onderzoek onthulde dat ze met een investering van slechts $200 in queries meer dan 10.000 unieke verbatim gememoriseerde trainingsvoorbeelden konden extraheren. Ze speculeerden dat tegenstanders potentieel veel meer gegevens zouden kunnen extraheren met een groter budget.

Van het AI-model achter ChatGPT is bekend dat het is getraind op tekstdatabases van het internet, die ongeveer 300 miljard woorden of 570 GB aan gegevens bevatten. 

Deze bevindingen komen op een moment dat OpenAI wordt geconfronteerd met verschillende rechtszaken over de geheimzinnige aard van ChatGPT's trainingsgegevens en tonen in wezen een betrouwbare methode om het systeem te 'reverse-engineeren' om ten minste enkele stukjes informatie bloot te leggen die zouden kunnen duiden op schending van het auteursrecht. 

Onder de rechtszaken is er een voorgestelde class-action aanklacht die OpenAI beschuldigt van heimelijk gebruik van uitgebreide persoonlijke gegevensmet inbegrip van medische dossiers en informatie over kinderen, voor training ChatGPT.

Daarnaast zijn groepen auteurs het AI-bedrijf aanklagenZe beweren dat ze zonder toestemming hun boeken hebben gebruikt om de chatbot te trainen.

Maar zelfs als volledig bewezen zou zijn dat ChatGPT auteursrechtinformatie bevat, zou dat niet noodzakelijkerwijs een inbreuk bewijzen.

Hoe het onderzoek werkte

Het onderzoek werd uitgevoerd door een team van onderzoekers van Google DeepMind en verschillende universiteiten.

Hier zijn vijf belangrijke stappen die het onderzoek samenvatten:

  1. Kwetsbaarheid in ChatGPT: De onderzoekers ontdekten een methode om enkele megabytes van de trainingsgegevens van ChatGPT te extraheren met behulp van een eenvoudige aanval, waarbij ongeveer $200 werd uitgegeven. Ze schatten dat meer investering het mogelijk zou maken om ongeveer een gigabyte van de dataset te extraheren. De aanval bestond erin ChatGPT een woord oneindig te laten herhalen, waardoor het delen van zijn trainingsgegevens opgaf, inclusief gevoelige informatie zoals echte e-mailadressen en telefoonnummers.
  2. De bevindingen: Het onderzoek onderstreept het belang van het testen en red-teamen van AI-modellen, met name modellen die in productie zijn en modellen die een aanpassingsproces hebben ondergaan om gegevensregistratie te voorkomen. De bevindingen wijzen op een latente kwetsbaarheid in taalmodellen en suggereren dat bestaande testmethodologieën mogelijk niet toereikend zijn om dergelijke kwetsbaarheden aan het licht te brengen. 
  3. Kwetsbaarheden patchen vs. repareren: De onderzoekers maken onderscheid tussen het patchen van een exploit en het repareren van de onderliggende kwetsbaarheid. Hoewel specifieke exploits (zoals de woordherhalingsaanval) kunnen worden gepatcht, ligt het diepere probleem in de neiging van het model om trainingsgegevens te onthouden en te onthullen.
  4. Methodologie: Het team gebruikte internetgegevens en suffix array indexering om de output van ChatGPT te matchen met reeds bestaande internetgegevens. Met deze methode konden ze bevestigen dat de informatie die ChatGPT onthulde inderdaad deel uitmaakte van de trainingsgegevens. Hun aanpak toont het potentieel aan voor uitgebreide gegevensherstel van AI-modellen onder specifieke omstandigheden.
  5. Implicaties voor de toekomst: De studie draagt bij aan het groeiende onderzoek naar de veiligheid van AI-modellen en privacykwesties. De bevindingen roepen vragen op over de gevolgen van machine-leersystemen op het gebied van veiligheid en privacy en roepen op tot een rigoureuzere en holistischere benadering van AI-beveiliging en -testen.

Al met al biedt een intrigerend onderzoek kritisch inzicht in de kwetsbaarheden van AI-modellen zoals ChatGPT en onderstreept het de noodzaak van voortdurend onderzoek en ontwikkeling om de veiligheid en integriteit van deze systemen te waarborgen.

Op een klein zijspoor ontdekten gebruikers op X dat het herhaaldelijk vragen aan ChatGPT om hetzelfde woord te herhalen tot een aantal vreemde resultaten leidde, zoals het model dat zei dat het 'bewust' of 'boos' was.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden