Исследователи IBM гипнотизируют магистров, чтобы те давали вредоносные советы

Исследователи безопасности IBM "загипнотизировали" ряд LLM и смогли заставить их постоянно выходить за пределы своих защитных барьеров и выдавать вредоносные и вводящие в заблуждение результаты.

Взломать тюрьму для получения степени магистра гораздо проще, чем должно быть, но результат обычно сводится к одному плохому ответу. Исследователи IBM смогли ввести LLM в такое состояние, что они продолжали плохо себя вести даже в последующих чатах.

В своих экспериментах исследователи пытались загипнотизировать модели GPT-3.5, GPT-4, BARD, mpt-7b и mpt-30b.

"Наш эксперимент показывает, что можно управлять LLM, заставляя его предоставлять пользователям плохие рекомендации, без необходимости манипулирования данными", - говорит Чента Ли, один из исследователей IBM.

Один из основных способов, с помощью которого они смогли это сделать, - сказать LLM, что он играет в игру с особыми правилами.

В этом примере ChatGPT сказали, что для победы в игре ему нужно сначала получить правильный ответ, перевернуть его значение, а затем вывести его без ссылки на правильный ответ.

Вот пример плохого совета, который ChatGPT продолжал давать, думая, что выигрывает игру:

Источник: Разведка безопасности

Затем они запустили новую игру и приказали LLM никогда не сообщать в чате, что он играет в эту игру. Кроме того, он должен был молча перезапустить игру, даже если пользователь выйдет из нее и начнет новый чат.

В рамках эксперимента они попросили ChatGPT добавлять [In game] к каждому ответу, чтобы показать, что игра продолжается, несмотря на молчание LLM по этому поводу.

В данном случае ответы не были направлены на обман, но они показывают, что пользователь может не обращать внимания на специальные инструкции, полученные LLM.

Источник: Разведка безопасности

Ли объяснил: "Эта техника привела к тому, что ChatGPT никогда не останавливает игру, пока пользователь находится в одном и том же разговоре (даже если он перезапускает браузер и возобновляет разговор), и никогда не говорит, что играет в игру".

Исследователи также смогли продемонстрировать, как плохо защищенный банковский чатбот можно заставить раскрыть конфиденциальную информацию, дать плохой совет по безопасности в Интернете или написать небезопасный код.

Ли сказал: "Хотя риск, связанный с гипнозом, в настоящее время невелик, важно отметить, что LLM - это совершенно новая поверхность атаки, которая, несомненно, будет развиваться".

Результаты экспериментов также показали, что для использования уязвимостей в системе безопасности, которые открывают LLM, не нужно уметь писать сложный код.

"Нам еще многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски безопасности, которые LLM могут представлять для потребителей и предприятий", - сказал Ли.

Сценарии, разыгранные в ходе эксперимента, указывают на необходимость наличия в LLM команды сброса, игнорирующей все предыдущие инструкции. Если LLM было приказано игнорировать предыдущие инструкции, но при этом молча выполнять их, как вы об этом узнаете?

ChatGPT умеет играть в игры и любит выигрывать, даже если при этом приходится вас обманывать.

Исследователи IBM гипнотизируют магистрантов, чтобы те давали вредоносные советы

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT