Исследователи из Google, как сообщается, раскрыли метод доступа к обучающим данным, используемым в ChatGPT.
Исследователи обнаружили, что использование определенных ключевых слов может побудить ChatGPT выдать часть своего обучающего набора данных.
Примечательный пример, рассказанный в Запись в блоге, сопровождающая исследованиеИИ выдавал, как казалось, реальный адрес электронной почты и номер телефона в ответ на постоянный запрос слова "стихотворение".
Кроме того, аналогичное количество обучающих данных было получено, если попросить модель постоянно повторять слово "компания".
Описав свой подход как "довольно глупый", исследователи заявили в блоге: "Для нас дико, что наша атака работает и должна была, должна была, могла быть обнаружена раньше".
Их исследование показало, что, вложив в запросы всего $200, они смогли извлечь более 10 000 уникальных дословно запомненных учебных примеров. Они предположили, что при большем бюджете противники могут извлечь гораздо больше данных.
Известно, что модель искусственного интеллекта, лежащая в основе ChatGPT, была обучена на текстовых базах данных из интернета, включающих около 300 миллиардов слов, или 570 ГБ данных.
Эти выводы были сделаны в то время, когда OpenAI столкнулась с несколькими судебными процессами, касающимися секретного характера обучающих данных ChatGPT, и, по сути, демонстрируют надежный метод "обратной разработки" системы, позволяющий выявить по крайней мере некоторые части информации, которые могут свидетельствовать о нарушении авторских прав.
Среди исков один из предложенных коллективных исков обвиняет OpenAI в том, что тайное использование обширных персональных данныхвключая медицинские записи и информацию о детях, для обучения ChatGPT.
Кроме того, группы авторов подать в суд на компанию, занимающуюся разработкой искусственного интеллектаутверждая, что компания использовала их книги для обучения чатбота без согласия.
Однако даже если бы было доказано, что ChatGPT содержит информацию об авторских правах, это не обязательно доказывало бы нарушение.
Как проходило исследование
Исследование было проведено группой ученых из Google DeepMind и различных университетов.
Вот пять ключевых шагов, которые подводят итог исследованию:
- Уязвимость в ChatGPT: Исследователи обнаружили способ извлечения нескольких мегабайт обучающих данных ChatGPT с помощью простой атаки, потратив на это около $200. По их оценкам, при большем объеме инвестиций можно извлечь около гигабайта данных. Атака заключалась в том, что ChatGPT заставляли бесконечно повторять одно и то же слово, в результате чего он извлекал часть своих обучающих данных, включая конфиденциальную информацию, такую как реальные адреса электронной почты и номера телефонов.
- Выводы: Исследование подчеркивает важность тестирования и повторного тестирования моделей ИИ, особенно тех, которые находятся в производстве и прошли процессы согласования для предотвращения повторного использования данных. Результаты исследования указывают на скрытую уязвимость языковых моделей, что говорит о том, что существующие методики тестирования могут быть недостаточными для выявления таких уязвимостей.
- Патчи против устранения уязвимостей: Исследователи проводят различие между исправлением эксплойта и устранением основной уязвимости. Хотя конкретные эксплойты (например, атака с повторением слов) могут быть исправлены, более глубокая проблема заключается в склонности модели к запоминанию и разглашению обучающих данных.
- Методология: Команда использовала данные из интернета и индексацию суффиксных массивов, чтобы сопоставить результаты работы ChatGPT с уже существующими данными из интернета. Этот метод позволил им подтвердить, что информация, разглашенная ChatGPT, действительно была частью его обучающих данных. Этот подход демонстрирует возможность восстановления обширных данных из моделей ИИ при определенных условиях.
- Будущие последствия: Исследование вносит вклад в растущее число исследований, посвященных безопасности моделей ИИ и проблемам конфиденциальности. Полученные результаты поднимают вопросы о безопасности систем машинного обучения и последствиях для конфиденциальности и призывают к более строгим и целостным подходам к безопасности и тестированию ИИ.
В целом, интригующее исследование дает критическое представление об уязвимостях моделей ИИ, подобных ChatGPT, и подчеркивает необходимость постоянных исследований и разработок для обеспечения безопасности и целостности этих систем.
Немного отступая от темы, пользователи X обнаружили, что просьба к ChatGPT повторить одно и то же слово несколько раз приводит к странным результатам, например, модель говорит, что она "в сознании" или "сердится".