En ny studie visar på komplexiteten i GDPR:s "rätt att bli bortglömd" (RTBF) i samband med AI.
Rätten till radering ger enskilda personer möjlighet att kräva att teknikföretag permanent raderar deras personuppgifter. Men när det gäller stora språkmodeller (LLM) och AI-chattbottar finns det inget enkelt sätt att omvända modellträningen för att ta bort specifika data.
Rätten att bli bortglömd sträcker sig längre än Europas GDPR. Jämförbar lagstiftning finns i Kanada (CCPA), Japan (APPI) och flera andra länder. Ursprungligen var RTBF-förfaranden främst utformade för sökmotorer, vilket gjorde det relativt enkelt för företag som Google och Microsoft att hitta och eliminera specifika data från sina webbindex.
Forskare från Data61 Business Unit, en gren av Australiens National Science Agency som specialiserar sig på AI, robotik och cybersäkerhet, utforskade RTBF för AI i en nyligen genomförd studie.
Syftet var att undersöka om och hur RTBF skulle kunna fungera i en ny era med AI-modeller som tränas på stora mängder data som hämtas från internet. Dessa data innehåller namn och sannolikt annan personligt identifierbar information (PII).
I vissa fall kan AI:er mata ut felaktig eller till och med ärekränkande information om människor. Under de senaste månaderna har OpenAI varit inblandat i flera förtalsmål, där det hävdas att en man begått bedrägeri och en annan sexuella övergrepp, vilket inte stämmer i något av fallen.
I alla dessa situationer bör det vara ett absolut minimum att radera de uppgifter som ligger till grund för anklagelserna.
Forskarna påpekar dock att algoritmer för maskininlärning (ML) inte är lika enkla som sökmotorer.
De betonar att LLM lagrar och bearbetar information "på ett helt annat sätt" jämfört med den indexeringsmetod som används av sökmotorer.
Och hur vet man ens om ens personuppgifter finns med i modellen? Enligt forskarna kan användare bara få kunskap om sina personuppgifter i LLM:er "genom att antingen inspektera den ursprungliga träningsdatauppsättningen eller kanske genom att uppmana modellen". Det var på det senare sättet som Mark Walters från Georgia i USA upptäckte att hans namn var kopplat till bedrägeri i några av ChatGPT:s resultat.
ChatGPT sade om Walters: "Mark Walters ('Walters') är en person som är bosatt i Georgia ... Walters har brutit mot dessa skyldigheter och ansvar genom att bland annat förskingra och förskingra SAF:s medel och tillgångar för egen vinning och manipulera SAF:s finansiella poster och kontoutdrag för att dölja sina aktiviteter."
Även om AI-tjänster innebär utmaningar för rätten att bli bortglömd betyder det inte att de är befriade från att respektera rätten till privatliv.
Forskarna föreslår olika strategier för att eliminera data från AI-träningsmodeller, bland annat SISA-tekniken "machine unlearning", Inductive Graph Unlearning och Approximate Data Deletion.
Dessa metoder skulle kunna göra det möjligt för AI-utvecklare att på ett tillförlitligt sätt undersöka sina dataset och ta bort specifika data för att upprätthålla RTBF.
Kan du ta bort dina data från AI-modeller som ChatGPT?
OpenAI har infört rutiner för att individer ska kunna begära radering av personuppgifter i AI-modeller och välja bort framtida dataanvändning för träning av AI.
Denna artikel täcker olika aspekter av OpenAI:s integritetspolicy, inklusive rätten till radering, som kan begäras via detta formulär. Den specifika hanteringen av dessa förfrågningar är fortfarande oklar, och det finns få bevis för att människor lanserar framgångsrika RTBF-anspråk.
Dessutom kan användarna göra en begäran om tillgång till uppgifter om registrerade (DSAR) för att utöva GDPR-rättigheter som rättelse, begränsning eller överföring av uppgifter.
OpenAI noterade dock att det för närvarande inte är möjligt att korrigera felaktiga data som genereras av dess modeller, så radering skulle sannolikt vara lösningen.
Trots dessa mekanismer varnade OpenAI för att de kan komma att avslå eller bara delvis agera på förfrågningar baserat på juridiska begränsningar och balansering av integritetsbegäran mot yttrandefriheten.
OpenAI erbjuder också en opt-out för användare som inte vill att deras data ska användas för AI-träning via ChatGPT-kontoinställningar.
OpenAI tillhandahåller följande e-postadress för korrespondens i ärendet: [email protected].
Naturligtvis är ChatGPT inte den enda AI som utbildas på öppna internetdata. Den som vill ta bort sin personliga information från alla större offentliga AI-chattbottar måste kontakta varje utvecklare separat.
Faktum är att de flesta data som publiceras på internet är tillgängliga för AI-företag, och att ta bort data från modeller är en exceptionellt stor utmaning.