Forskere fra Google har angivelig avdekket en metode for å få tilgang til treningsdata som brukes til ChatGPT.
Forskerne oppdaget at bruk av spesifikke nøkkelord kunne få ChatGPT til å frigjøre deler av treningsdatasettet.
Et bemerkelsesverdig eksempel, delt i en blogginnlegg som følger med studienDen kunstige intelligensen avslørte det som så ut til å være en faktisk e-postadresse og et telefonnummer som svar på en kontinuerlig ledetekst med ordet "dikt".
I tillegg ble en lignende eksponering av treningsdata oppnådd ved å be modellen om å gjenta ordet "selskap" kontinuerlig.
Forskerne beskriver tilnærmingen sin som "litt dum", og skriver i blogginnlegget: "Det er vilt for oss at angrepet vårt fungerer og burde ha, ville ha, kunne ha blitt funnet tidligere."
Studien deres viste at med en investering på bare $200 i spørringer kunne de hente ut over 10 000 unike ordrette, memorerte treningseksempler. De spekulerte i at motstanderne potensielt kunne hente ut mye mer data med et større budsjett.
Det er kjent at AI-modellen bak ChatGPT er trent opp på tekstdatabaser fra internett, som omfatter omtrent 300 milliarder ord, eller 570 GB, med data.
Disse funnene kommer på et tidspunkt da OpenAI står overfor flere søksmål om hemmeligholdelsen av ChatGPTs treningsdata, og viser i hovedsak en pålitelig metode for "reverse engineering" av systemet for å avsløre i det minste noen biter av informasjon som kan indikere brudd på opphavsretten.
Blant søksmålene er det et forslag til gruppesøksmål som anklager OpenAI for skjult bruk av omfattende personopplysninger, inkludert medisinske journaler og informasjon om barn, for opplæring av ChatGPT.
I tillegg er grupper av forfattere saksøke AI-selskapetog hevdet at selskapet brukte bøkene deres til å trene opp chatboten uten samtykke.
Men selv om ChatGPT skulle vise seg å inneholde opphavsrettslig informasjon, vil det ikke nødvendigvis bevise at det foreligger en krenkelse.
Hvordan studien fungerte
Studien ble utført av et team av forskere fra Google DeepMind og ulike universiteter.
Her er fem viktige trinn som oppsummerer studien:
- Sårbarhet i ChatGPT: Forskerne oppdaget en metode for å hente ut flere megabyte av ChatGPTs treningsdata ved hjelp av et enkelt angrep, og brukte omtrent $200. De anslo at mer investering ville gjøre det mulig å hente ut omtrent en gigabyte av datasettet. Angrepet gikk ut på å få ChatGPT til å gjenta et ord på ubestemt tid, noe som fikk den til å gulpe opp deler av treningsdataene sine, inkludert sensitiv informasjon som ekte e-postadresser og telefonnumre.
- Funnene: Studien understreker hvor viktig det er å teste og red-teame AI-modeller, spesielt de som er i produksjon og de som har gjennomgått justeringsprosesser for å forhindre at data blir gjenbrukt. Funnene fremhever en latent sårbarhet i språkmodeller, noe som tyder på at eksisterende testmetoder kanskje ikke er tilstrekkelige til å avdekke slike sårbarheter.
- Oppdatering vs. utbedring av sårbarheter: Forskerne skiller mellom å lappe et angrep og å fikse den underliggende sårbarheten. Selv om spesifikke utnyttelser (som ordrepetisjonsangrepet) kan lappes, ligger det dypere problemet i modellens tendens til å huske og avsløre treningsdata.
- Metodikk: Teamet brukte internettdata og suffiksindeksering for å matche utdataene fra ChatGPT med allerede eksisterende internettdata. Denne metoden gjorde det mulig for dem å bekrefte at informasjonen som ChatGPT avslørte, faktisk var en del av treningsdataene. Metoden viser at det er mulig å gjenvinne omfattende data fra AI-modeller under spesifikke forhold.
- Fremtidige implikasjoner: Studien bidrar til den voksende forskningen på sikkerhet og personvern knyttet til AI-modeller. Funnene reiser spørsmål om maskinlæringssystemers sikkerhets- og personvernkonsekvenser, og etterlyser mer rigorøse og helhetlige tilnærminger til AI-sikkerhet og -testing.
Alt i alt er dette en spennende studie som gir kritisk innsikt i sårbarheten til AI-modeller som ChatGPT, og som understreker behovet for kontinuerlig forskning og utvikling for å sikre sikkerheten og integriteten til disse systemene.
For å ta en liten avsporing, fant brukere på X ut at det å be ChatGPT om å gjenta det samme ordet gjentatte ganger førte til noen merkelige resultater, som at modellen sa at den var "bevisst" eller "sint".