En ny undersøgelse afslører kompleksiteten i GDPR's "ret til at blive glemt" (RTBF) i forbindelse med AI.
Dette er også kendt som retten til sletning og giver enkeltpersoner mulighed for at kræve, at teknologivirksomheder sletter deres persondata permanent. Men i forbindelse med store sprogmodeller (LLM'er) og AI-chatbots er der ingen enkel måde at vende modeltræningen om for at fjerne specifikke data.
Retten til at blive glemt strækker sig ud over Europas GDPR. Sammenlignelig lovgivning findes i Canada (CCPA), Japan (APPI) og flere andre lande. Oprindeligt var RTBF-procedurer primært designet til søgemaskiner, hvilket gjorde det relativt enkelt for virksomheder som Google og Microsoft at finde og fjerne specifikke data fra deres webindekser.
Forskere fra Data61 Business Unit, en afdeling af Australiens National Science Agency med speciale i AI, robotteknologi og cybersikkerhed, udforskede RTBF til AI i en nylig undersøgelse.
De ville undersøge, om og hvordan RTBF kunne fungere i en ny æra med AI-modeller, der er trænet på store mængder data fra internettet. Disse data indeholder navne og sandsynligvis andre personligt identificerbare oplysninger (PII).
I nogle tilfælde kan AI'er udsende forkerte eller endda injurierende oplysninger om mennesker. I de seneste måneder har OpenAI været indblandet i Flere injuriesagerog den påstår, at en mand har begået bedrageri og en anden seksuelle overgreb, hvilket ikke er sandt i nogen af tilfældene.
I alle disse situationer bør det være et absolut minimum at slette de data, der er årsag til beskyldningerne.
Men som forskerne påpeger, er maskinlæringsalgoritmer (ML) ikke så ligetil som søgemaskiner.
De fremhæver, at LLM'er gemmer og behandler information "på en helt anden måde" sammenlignet med den indekseringsmetode, der bruges af søgemaskiner.
Og hvordan ved du overhovedet, om dine personlige data er indeholdt i modellen? Ifølge forskerne kan brugerne kun få viden om deres personlige data i LLM'er "ved enten at inspicere det oprindelige træningsdatasæt eller måske ved at spørge modellen." Det var sådan, Mark Walters fra Georgia i USA opdagede, at hans navn var forbundet med svindel i nogle af ChatGPT's resultater.
ChatGPT sagde om Walters: "Mark Walters ('Walters') er en person, der bor i Georgia ... Walters har overtrådt disse pligter og ansvarsområder ved blandt andet at underslå og misbruge SAF's midler og aktiver til egen fordel og manipulere SAF's regnskaber og kontoudtog for at skjule sine aktiviteter."
Selvom AI-tjenester udfordrer retten til at blive glemt, betyder det ikke, at de er fritaget for at respektere retten til privatliv.
Forskerne foreslår forskellige strategier til at fjerne data fra AI-træningsmodeller, herunder bl.a. SISA-teknikken "machine unlearning", Inductive Graph Unlearning og Approximate Data Deletion.
Disse metoder kan gøre det muligt for AI-udviklere at undersøge deres datasæt på en pålidelig måde og fjerne specifikke data for at opretholde RTBF.
Kan du fjerne dine data fra AI-modeller som ChatGPT?
OpenAI har indført procedurer, så enkeltpersoner kan anmode om sletning af persondata i AI-modeller og fravælge fremtidig brug af data til træning af AI.
Denne artikel dækker forskellige aspekter af OpenAI's privatlivspolitik, herunder retten til sletning, som man kan anmode om via denne formular. Den specifikke håndtering af disse anmodninger er stadig uklar, og der er kun få beviser på, at folk har haft succes med deres RTBF-krav.
Derudover kan brugere indgive en anmodning om adgang til registrerede (DSAR) for at udøve GDPR-sikrede rettigheder såsom rettelse, begrænsning eller overførsel af data.
OpenAI bemærkede dog, at det i øjeblikket ikke er muligt at korrigere unøjagtige data genereret af deres modeller, så sletning vil sandsynligvis være løsningen.
På trods af disse mekanismer advarede OpenAI om, at de måske ville afvise eller kun delvist reagere på anmodninger baseret på juridiske begrænsninger og afvejning af anmodninger om privatlivets fred over for ytringsfriheden.
OpenAI tilbyder også en opt-out for brugere, der ikke ønsker, at deres data bruges til AI-træning via ChatGPT-kontoindstillingerne.
OpenAI stiller følgende e-mailadresse til rådighed for korrespondance om sagen: [email protected].
Naturligvis er ChatGPT ikke den eneste AI, der er trænet på åbne internetdata. Alle, der ønsker at fjerne deres personlige oplysninger fra alle større offentlige AI-chatbots, skal kontakte hver enkelt udvikler.
Virkeligheden er, at de fleste data, der offentliggøres på internettet, er tilgængelige for AI-virksomheder, og det er usædvanligt udfordrende at fjerne data fra modeller.