Как функционирует "право на забвение" (ПЗЗ) в контексте ИИ?

15 июля 2023 года

Соблюдение требований GDPR

Новое исследование раскрывает сложности "права на забвение" (RTBF), предусмотренного GDPR, в контексте искусственного интеллекта.

Это право, известное также как право на стирание, дает людям возможность требовать от технологических компаний безвозвратного удаления их персональных данных. Однако в контексте больших языковых моделей (LLM) и чат-ботов с искусственным интеллектом не существует простого способа реинжиниринга обучения модели для удаления конкретных данных. 

Право на забвение выходит за рамки европейского GDPR. Сопоставимое законодательство существует в Канаде (CCPA), Японии (APPI) и ряде других стран. Изначально процедуры RTBF были разработаны в первую очередь для поисковых систем, что позволило таким компаниям, как Google и Microsoft, относительно просто находить и удалять конкретные данные из своих веб-индексов.

Исследователи из подразделения Data61 Business Unit, филиала Национального научного агентства Австралии, специализирующегося на ИИ, робототехнике и кибербезопасности, изучили RTBF для ИИ в исследовании недавнее исследование.

Их целью было выяснить, может ли RTBF функционировать в новую эру моделей искусственного интеллекта, обученных на огромном количестве данных, извлеченных из Интернета. Эти данные содержат имена и, вероятно, другую персонально идентифицируемую информацию (PII). 

В некоторых случаях ИИ может выдавать неверную или даже клеветническую информацию о людях. В последние месяцы OpenAI оказалась втянутой в многочисленные дела о клеветеВ выходных данных утверждается, что один мужчина совершил мошенничество, а другой - сексуальное насилие, что не соответствует действительности ни в том, ни в другом случае. 

В любой из этих ситуаций удаление данных, вызвавших обвинения, должно быть абсолютным минимумом. 

Однако, как отмечают исследователи, алгоритмы машинного обучения (ML) не так просты, как поисковые системы.

Они подчеркивают, что LLM хранят и обрабатывают информацию "совершенно иным способом" по сравнению с подходом к индексированию, используемым поисковыми системами.

А как узнать, содержатся ли в модели ваши личные данные? По словам исследователей, пользователи могут получить информацию о своих личных данных в LLM, "либо изучив исходный обучающий набор данных, либо, возможно, обратившись к модели". Именно так Марк Уолтерс из штата Джорджия, США, обнаружил, что его имя связано с мошенничеством в некоторых результатах работы ChatGPT. 

ChatGPT сказал об Уолтерсе: "Марк Уолтерс ("Уолтерс") - физическое лицо, проживающее в Джорджии... Уолтерс нарушил эти обязанности и ответственность, в частности, присвоив и растратив средства и активы SAF в своих интересах, а также манипулируя финансовой документацией и банковскими выписками SAF для сокрытия своей деятельности".

Хотя сервисы искусственного интеллекта создают проблемы для права на забвение, это не означает, что они не должны соблюдать права на неприкосновенность частной жизни. 

Исследователи предлагают различные стратегии удаления данных из обучающих моделей ИИ, включая технику "машинного необучения" SISA, Inductive Graph Unlearning, Approximate Data Deletion и другие. 

Эти методы могут позволить разработчикам ИИ надежно проверять свои наборы данных и удалять конкретные данные, чтобы соблюсти RTBF.

Можете ли вы удалить свои данные из моделей искусственного интеллекта, таких как ChatGPT?

OpenAI ввела процедуры, позволяющие людям запрашивать удаление личных данных в моделях ИИ и отказываться от использования данных в будущем для обучения ИИ. 

Эта статья Охватывает различные аспекты политики конфиденциальности OpenAI, включая право на стирание, которое можно запросить через эта форма. Конкретная процедура рассмотрения этих запросов остается неясной, и существует мало свидетельств того, что люди подавали успешные иски в RTBF. 

Кроме того, пользователи могут подать запрос на доступ к данным (DSAR), чтобы воспользоваться правами, предусмотренными GDPR, такими как исправление, ограничение или передача данных. 

Однако OpenAI отметила, что исправление неточных данных, генерируемых ее моделями, в настоящее время не представляется возможным, поэтому решением, скорее всего, станет удаление.

Несмотря на эти механизмы, OpenAI предупредила, что может отклонить или лишь частично удовлетворить запросы, основываясь на юридических ограничениях и балансе между запросами о конфиденциальности и свободой выражения мнений.

OpenAI также предлагает отказ от использования своих данных для обучения ИИ через настройки аккаунта ChatGPT.

OpenAI предоставляет следующий адрес электронной почты для переписки по этому вопросу: [email protected].

Конечно, ChatGPT - не единственный ИИ, обученный на открытых интернет-данных. Любой человек, желающий удалить свою личную информацию из всех основных публичных чат-ботов ИИ, должен связаться с каждым разработчиком отдельно.

Реальность такова, что большинство данных, опубликованных в Интернете, становятся достоянием компаний, занимающихся разработкой искусственного интеллекта, а удаление данных из моделей является исключительно сложной задачей. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения