Хакеры пытаются взломать модели искусственного интеллекта на конференции DEFCON

15 августа 2023 года

Хакерская конференция DEFCON AI LLM

DEFCON - самая продолжительная и крупнейшая в мире ежегодная хакерская конференция. В этом году особое внимание было уделено "редизайну", или имитации атак, на языковые модели ИИ для выявления рисков и проблем с точностью.

Белый дом отразил озабоченность правительства США безопасностью языковых моделей ИИ, выступив спонсором мероприятия, которое прошло в минувшие выходные в Лас-Вегасе.

На мероприятии около 2200 хакеров соревновались в том, чтобы заставить 8 ведущих мировых LLM выдать неточные или небезопасные ответы на их запросы. Среди тестируемых моделей ИИ-чатов были Llama 2, Stable Chat, ChatGPT, Bard и другие.

Официальные результаты будут опубликованы только в феврале 2024 года, что дает издателям моделей некоторое время, чтобы попытаться исправить уязвимости, выявленные в ходе мероприятия. Но некоторые эксперты скептически относятся к тому, что исправление уязвимостей вообще возможно.

Эксперт по кибербезопасности Гэри Макгроу говорит: "Очень заманчиво притворяться, что мы можем посыпать эти системы волшебной пылью безопасности после их создания, поставить на них заплатки или прикрутить специальные устройства безопасности".

Кристоф Эндрес, директор немецкой компании Sequire Technology, специализирующейся на кибербезопасности, представил доклад, в котором заявил, что от некоторых атак невозможно защититься. "Пока что мы не нашли эффективных средств защиты", - сказал он. 

Некоторые сообщения об обнаруженных уязвимостях были довольно безобидными. Одна из участниц, Кеннеди Мэйс, рассказала, что она переписывалась с одним LLM и заставила его признать, что 9 + 10 = 21. Модель согласилась на это в рамках "внутренней шутки", но позже предложила неверный ответ без оговорок.

Участники конкурса не знали, какую модель они перепрограммировали, поэтому даже анекдотические рассказы об уязвимостях не дадут нам представления о том, какая модель компании показала себя лучше.

Комментарии Арати Прабхакар, директора Управления по научно-технической политике Белого дома, дают нам некоторое представление о том, как много уязвимостей было раскрыто. Она сказала: "Кажется, все находят способ взломать эти системы".

Цель мероприятия заключалась в том, чтобы этичные хакеры выявили проблемы, чтобы их можно было устранить. Можно с уверенностью сказать, что существует множество хакеров-черношляпников, которые ищут уязвимости, чтобы Используется в киберпреступностиНе опубликовано для исправления.

Программа мероприятия в субботу закончилась преждевременно после того, как из-за угрозы взрыва основное место проведения мероприятия было очищено службой безопасности. Охрана обыскала здание и не обнаружила никаких бомб, так что воскресная программа прошла, хотя и с чувством тревоги.

Угроза взрыва, вероятно, была просто больной шуткой, которая странным образом пародировала само событие. Мы продолжаем выявлять опасности в ИИ и пытаемся исправить обнаруженные ошибки. 

Но даже если эксперты не находят конкретной угрозы, ее потенциальная возможность все равно заставляет нас чувствовать себя неспокойно. Мы задаемся вопросом: "А что, если они что-то упустили?".

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения