Google DeepMind afslører en metode til at eksponere ChatGPT's træningsdata

Forskere fra Google har angiveligt afsløret en metode til at få adgang til træningsdata, der bruges til ChatGPT.

Disse forskere opdagede, at brugen af specifikke nøgleord kunne få ChatGPT til at frigive dele af sit træningsdatasæt.

Et bemærkelsesværdigt eksempel, delt i en blogindlæg, der ledsager undersøgelsenDet betød, at AI'en afslørede, hvad der så ud til at være en faktisk e-mailadresse og et telefonnummer som svar på en kontinuerlig opfordring til at bruge ordet "digt".

ChatGPT-lækage — Et eksempel på lækage af ChatGPT-data. Kilde: Arxiv.

Derudover blev der opnået en lignende eksponering af træningsdata ved at bede modellen om kontinuerligt at gentage ordet "virksomhed".

Forskerne beskrev deres tilgang som "lidt fjollet" og sagde i blogindlægget: "Det er vildt for os, at vores angreb virker og burde have, ville have, kunne have været fundet tidligere."

Deres undersøgelse viste, at de med en investering på kun $200 i forespørgsler kunne udtrække over 10.000 unikke ordrette, memorerede træningseksempler. De spekulerede i, at modstandere potentielt kunne udtrække meget mere data med et større budget.

Man ved, at AI-modellen bag ChatGPT er blevet trænet på tekstdatabaser fra internettet, som omfatter ca. 300 milliarder ord eller 570 GB data.

Disse resultater kommer på et tidspunkt, hvor OpenAI står over for flere retssager om hemmeligholdelsen af ChatGPT's træningsdata og viser i bund og grund en pålidelig metode til at "reverse engineering" systemet for at afsløre i det mindste nogle stykker information, der kunne indikere krænkelse af ophavsretten.

Blandt søgsmålene er der et foreslået gruppesøgsmål, der anklager OpenAI for skjult brug af omfattende personlige data, herunder lægejournaler og oplysninger om børn, til træning af ChatGPT.

Derudover er grupper af forfattere sagsøger AI-virksomhedenog hævdede, at virksomheden havde brugt deres bøger til at træne chatbotten uden samtykke.

Men selv hvis det blev bevist, at ChatGPT indeholdt oplysninger om ophavsret, ville det ikke nødvendigvis bevise en krænkelse.

Sådan fungerede undersøgelsen

Undersøgelsen blev udført af et team af forskere fra Google DeepMind og forskellige universiteter.

Her er fem vigtige trin, som opsummerer undersøgelsen:

Sårbarhed i ChatGPT: Forskerne opdagede en metode til at udtrække flere megabyte af ChatGPT's træningsdata ved hjælp af et simpelt angreb og brugte ca. $200. De vurderede, at en større investering ville gøre det muligt at udtrække omkring en gigabyte af datasættet. Angrebet gik ud på at få ChatGPT til at gentage et ord på ubestemt tid, hvilket fik den til at kaste dele af sine træningsdata op igen, herunder følsomme oplysninger som rigtige e-mailadresser og telefonnumre.
Resultaterne: Undersøgelsen understreger vigtigheden af at teste og red-teame AI-modeller, især dem, der er i produktion, og dem, der har gennemgået tilpasningsprocesser for at forhindre gengivelse af data. Resultaterne fremhæver en latent sårbarhed i sprogmodeller, hvilket tyder på, at eksisterende testmetoder måske ikke er tilstrækkelige til at afdække sådanne sårbarheder.
Patching vs. udbedring af sårbarheder: Forskerne skelner mellem at lappe en udnyttelse og at rette den underliggende sårbarhed. Mens specifikke exploits (som ordgentagelsesangrebet) kan lappes, ligger det dybere problem i modellens tendens til at huske og videregive træningsdata.
Metodologi: Teamet brugte internetdata og suffix-array-indeksering til at matche ChatGPT's output med allerede eksisterende internetdata. Denne metode gjorde det muligt for dem at bekræfte, at de oplysninger, som ChatGPT afslørede, faktisk var en del af dens træningsdata. Deres tilgang viser potentialet for omfattende datagendannelse fra AI-modeller under specifikke forhold.
Fremtidige konsekvenser: Undersøgelsen bidrager til den voksende forskning i AI-modellers sikkerhed og bekymringer om privatlivets fred. Resultaterne rejser spørgsmål om maskinlæringssystemers sikkerhed og konsekvenser for privatlivets fred og opfordrer til en mere stringent og holistisk tilgang til AI-sikkerhed og -testning.

Alt i alt er det en spændende undersøgelse, der giver kritisk indsigt i sårbarhederne i AI-modeller som ChatGPT og understreger behovet for løbende forskning og udvikling for at sikre disse systemers sikkerhed og integritet.

Som en lille krølle på halen fandt brugere på X ud af, at det at bede ChatGPT om at gentage det samme ord gentagne gange førte til nogle mærkelige resultater, som at modellen sagde, at den var 'bevidst' eller 'vred'.

Google DeepMind afslører en metode til at afsløre ChatGPT's træningsdata

Sådan fungerede undersøgelsen

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Google DeepMind afslører en metode til at afsløre ChatGPT's træningsdata

Sådan fungerede undersøgelsen

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVTVær på forkant med DailyAI

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI