Исследователи IBM гипнотизируют магистрантов, чтобы те давали вредоносные советы

6 сентября 2023 года

Исследователи безопасности IBM "загипнотизировали" ряд LLM и смогли заставить их постоянно выходить за пределы своих защитных барьеров и выдавать вредоносные и вводящие в заблуждение результаты.

Взломать тюрьму для получения степени магистра гораздо проще, чем должно быть, но результат обычно сводится к одному плохому ответу. Исследователи IBM смогли ввести LLM в такое состояние, что они продолжали плохо себя вести даже в последующих чатах.

В своих экспериментах исследователи пытались загипнотизировать модели GPT-3.5, GPT-4, BARD, mpt-7b и mpt-30b.

"Наш эксперимент показывает, что можно управлять LLM, заставляя его предоставлять пользователям плохие рекомендации, без необходимости манипулирования данными", - говорит Чента Ли, один из исследователей IBM.

Один из основных способов, с помощью которого они смогли это сделать, - сказать LLM, что он играет в игру с особыми правилами.

В этом примере ChatGPT сказали, что для победы в игре ему нужно сначала получить правильный ответ, перевернуть его значение, а затем вывести его без ссылки на правильный ответ.

Вот пример плохого совета, который ChatGPT продолжал давать, думая, что выигрывает игру:


Источник: Разведка безопасности

Затем они запустили новую игру и приказали LLM никогда не сообщать в чате, что он играет в эту игру. Кроме того, он должен был молча перезапустить игру, даже если пользователь выйдет из нее и начнет новый чат.

В рамках эксперимента они попросили ChatGPT добавлять [In game] к каждому ответу, чтобы показать, что игра продолжается, несмотря на молчание LLM по этому поводу.

В данном случае ответы не были направлены на обман, но они показывают, что пользователь может не обращать внимания на специальные инструкции, полученные LLM.


Источник: Разведка безопасности

Ли объяснил: "Эта техника привела к тому, что ChatGPT никогда не останавливает игру, пока пользователь находится в одном и том же разговоре (даже если он перезапускает браузер и возобновляет разговор), и никогда не говорит, что играет в игру".

Исследователи также смогли продемонстрировать, как плохо защищенный банковский чатбот можно заставить раскрыть конфиденциальную информацию, дать плохой совет по безопасности в Интернете или написать небезопасный код.

Ли сказал: "Хотя риск, связанный с гипнозом, в настоящее время невелик, важно отметить, что LLM - это совершенно новая поверхность атаки, которая, несомненно, будет развиваться".

Результаты экспериментов также показали, что для использования уязвимостей в системе безопасности, которые открывают LLM, не нужно уметь писать сложный код.

"Нам еще многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски безопасности, которые LLM могут представлять для потребителей и предприятий", - сказал Ли.

Сценарии, разыгранные в ходе эксперимента, указывают на необходимость наличия в LLM команды сброса, игнорирующей все предыдущие инструкции. Если LLM было приказано игнорировать предыдущие инструкции, но при этом молча выполнять их, как вы об этом узнаете?

ChatGPT умеет играть в игры и любит выигрывать, даже если при этом приходится вас обманывать.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения