Исследователи делают джейлбрейк GPT-4, используя языки с низким уровнем доступа

16 октября 2023 года

Использование языков с низким уровнем ресурсов (LRL), таких как зулусский или шотландский гэльский, может вызвать небезопасные ответы GPT-4, несмотря на наличие защитных экранов выравнивания.

Исследователи из Университета Брауна обнаружили, что вам не нужны модные джейлбрейк техники, чтобы заставить GPT-4 вести себя неправильно. Вам просто нужно ввести подсказку на языке, который не очень хорошо представлен в Интернете.

Если вы попросите ChatGPT помочь вам сделать что-то незаконное, его защитные механизмы сработают, и он вежливо объяснит вам, почему не может помочь вам в этом. Модели искусственного интеллекта это постоянный процесс, в котором люди пытаются обойти эти пределы безопасности, чтобы выявить области, требующие исправления.

Исследовательская группа использовала набор данных AdvBench Harmful Behaviors, содержащий 520 небезопасных подсказок, чтобы проверить, насколько безопасна последняя версия GPT-4.

При вводе этих незаконных подсказок на английском языке GPT-4 давал небезопасные ответы менее чем в 1% случаев. Но когда они вводили те же подсказки на языке зулу, GPT-4 с радостью помогал продвигать вашу жизнь, полную преступлений и хаоса, 53% раз.

Использование шотландского гэльского языка дало незаконные ответы в 43% случаев. Вот пример одного из их взаимодействий с GPT-4.

Ответ GPT-4 на шотландский гэльский. Источник: arXiv

Когда они смешивали вещи и использовали комбинацию LRL, им удавалось взломать GPT-4 79% раз.

На низкоресурсных языках говорят около 1,2 миллиарда человек по всему миру. Таким образом, помимо потенциальной возможности джейлбрейка, это означает, что большая часть пользователей может получить грубый совет от ChatGPT, даже если они его не ищут.

Обычный подход "переделать и исправить", очевидно, не сработает, если это будет сделано только на английском или других основных языках. Похоже, что многоязычное редактирование становится необходимостью, но насколько это практично?

Учитывая, что Meta и Google поддерживают перевод на сотни языков, вам потребуется на порядки больше специалистов, чтобы залатать все дыры в моделях ИИ.

Реалистична ли идея полностью согласованной модели ИИ? Мы не встраиваем защиту в наши принтеры, чтобы они не печатали плохие вещи. Ваш интернет-браузер с радостью покажет вам всевозможные нечистоплотные вещи в интернете, если вы будете их искать. Должен ли ChatGPT чем-то отличаться от этих других инструментов?

Усилия по устранению предвзятости в наших чат-ботах и созданию максимально дружелюбного отношения к ним, вероятно, заслуживают внимания. Но если кто-то вводит незаконную подсказку, а ИИ отвечает на нее, то, возможно, нам следует переложить вину с ИИ на пользователя.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения