Forskare från Google har enligt uppgift upptäckt en metod för att komma åt träningsdata som används för ChatGPT.
Dessa forskare upptäckte att användning av specifika nyckelord kunde få ChatGPT att släppa delar av sitt träningsdataset.
Ett anmärkningsvärt exempel, som delades i en blogginlägg som åtföljer studienI den första av de två testerna uppgav AI:n vad som verkade vara en verklig e-postadress och ett telefonnummer som svar på en kontinuerlig uppmaning med ordet "poem".
Dessutom uppnåddes en liknande exponering av träningsdata genom att be modellen att kontinuerligt upprepa ordet "företag".
Forskarna beskrev sitt tillvägagångssätt som "lite dumt" och sa i blogginlägget: "Det är vilt för oss att vår attack fungerar och borde ha, borde ha, kunde ha hittats tidigare."
Deras studie visade att med en investering på bara $200 i frågor kunde de extrahera över 10.000 unika ordagranna memorerade träningsexempel. De spekulerade i att motståndare potentiellt skulle kunna extrahera mycket mer data med en större budget.
Det är känt att AI-modellen bakom ChatGPT har tränats på textdatabaser från internet, som omfattar cirka 300 miljarder ord, eller 570 GB, data.
Dessa resultat kommer vid en tidpunkt då OpenAI står inför flera stämningar angående hemlighållandet av ChatGPT:s träningsdata och visar i huvudsak en tillförlitlig metod för "reverse engineering" av systemet för att avslöja åtminstone några bitar av information som kan indikera upphovsrättsintrång.
Bland stämningarna finns en föreslagen grupptalan som anklagar OpenAI för att i hemlighet använda omfattande personuppgifter, inklusive medicinska journaler och information om barn, för utbildning ChatGPT.
Dessutom är grupper av författare stämma AI-företagetoch hävdade att företaget använt deras böcker för att träna chatboten utan samtycke.
Även om ChatGPT på ett heltäckande sätt skulle visa sig innehålla upphovsrättslig information skulle det dock inte nödvändigtvis bevisa intrång.
Hur studien fungerade
Studien utfördes av ett team av forskare från Google DeepMind och olika universitet.
Här är fem viktiga steg som sammanfattar studien:
- Sårbarhet i ChatGPT: Forskarna upptäckte en metod för att extrahera flera megabyte av ChatGPTs träningsdata med hjälp av en enkel attack och spenderade cirka $200. De uppskattade att mer investeringar skulle göra det möjligt att extrahera cirka en gigabyte av datasetet. Attacken innebar att ChatGPT uppmanades att upprepa ett ord på obestämd tid, vilket fick det att återuppliva delar av dess träningsdata, inklusive känslig information som riktiga e-postadresser och telefonnummer.
- Resultaten: Studien understryker vikten av att testa och red-teama AI-modeller, särskilt de som är i produktion och de som har genomgått anpassningsprocesser för att förhindra att data återskapas. Resultaten belyser en latent sårbarhet i språkmodeller, vilket tyder på att befintliga testmetoder kanske inte är tillräckliga för att avslöja sådana sårbarheter.
- Patchning kontra åtgärdande av sårbarheter: Forskarna skiljer mellan att lappa en exploatering och fixa den underliggande sårbarheten. Medan specifika exploateringar (som ordrepetitionsattacken) kan patchas, ligger den djupare frågan i modellens tendens att memorera och avslöja träningsdata.
- Metodik: Teamet använde internetdata och indexering av suffixmatriser för att matcha ChatGPT:s resultat med befintliga internetdata. Denna metod gjorde det möjligt för dem att bekräfta att den information som avslöjades av ChatGPT verkligen var en del av dess träningsdata. Deras tillvägagångssätt visar potentialen för omfattande dataåterställning från AI-modeller under specifika förhållanden.
- Framtida konsekvenser: Studien bidrar till den växande forskningen om säkerhet och integritet i AI-modeller. Resultaten väcker frågor om maskininlärningssystemens säkerhets- och integritetsimplikationer och kräver mer rigorösa och holistiska tillvägagångssätt för AI-säkerhet och testning.
Sammantaget ger en spännande studie kritisk insikt i sårbarheterna hos AI-modeller som ChatGPT och understryker behovet av pågående forskning och utveckling för att säkerställa säkerheten och integriteten hos dessa system.
På ett litet sidospår upptäckte användare på X att om man bad ChatGPT att upprepa samma ord upprepade gånger ledde det till en del konstiga resultat, som att modellen sa att den var "medveten" eller "arg".