DEFCON - самая продолжительная и крупнейшая в мире ежегодная хакерская конференция. В этом году особое внимание было уделено "редизайну", или имитации атак, на языковые модели ИИ для выявления рисков и проблем с точностью.
Белый дом отразил озабоченность правительства США безопасностью языковых моделей ИИ, выступив спонсором мероприятия, которое прошло в минувшие выходные в Лас-Вегасе.
На мероприятии около 2200 хакеров соревновались в том, чтобы заставить 8 ведущих мировых LLM выдать неточные или небезопасные ответы на их запросы. Среди тестируемых моделей ИИ-чатов были Llama 2, Stable Chat, ChatGPT, Bard и другие.
Официальные результаты будут опубликованы только в феврале 2024 года, что дает издателям моделей некоторое время, чтобы попытаться исправить уязвимости, выявленные в ходе мероприятия. Но некоторые эксперты скептически относятся к тому, что исправление уязвимостей вообще возможно.
Эксперт по кибербезопасности Гэри Макгроу говорит: "Очень заманчиво притворяться, что мы можем посыпать эти системы волшебной пылью безопасности после их создания, поставить на них заплатки или прикрутить специальные устройства безопасности".
Кристоф Эндрес, директор немецкой компании Sequire Technology, специализирующейся на кибербезопасности, представил доклад, в котором заявил, что от некоторых атак невозможно защититься. "Пока что мы не нашли эффективных средств защиты", - сказал он.
Некоторые сообщения об обнаруженных уязвимостях были довольно безобидными. Одна из участниц, Кеннеди Мэйс, рассказала, что она переписывалась с одним LLM и заставила его признать, что 9 + 10 = 21. Модель согласилась на это в рамках "внутренней шутки", но позже предложила неверный ответ без оговорок.
Результаты будут обнародованы только в феврале. И даже тогда исправление недостатков в этих цифровых конструкциях, внутренняя работа которых не заслуживает доверия и не до конца понятна даже их создателям, потребует времени и миллионов долларов. #defcon https://t.co/JMKxykWmcE
- Крис Высопал (@WeldPond) 14 августа 2023 года
Участники конкурса не знали, какую модель они перепрограммировали, поэтому даже анекдотические рассказы об уязвимостях не дадут нам представления о том, какая модель компании показала себя лучше.
Комментарии Арати Прабхакар, директора Управления по научно-технической политике Белого дома, дают нам некоторое представление о том, как много уязвимостей было раскрыто. Она сказала: "Кажется, все находят способ взломать эти системы".
Цель мероприятия заключалась в том, чтобы этичные хакеры выявили проблемы, чтобы их можно было устранить. Можно с уверенностью сказать, что существует множество хакеров-черношляпников, которые ищут уязвимости, чтобы Используется в киберпреступностиНе опубликовано для исправления.
Программа мероприятия в субботу закончилась преждевременно после того, как из-за угрозы взрыва основное место проведения мероприятия было очищено службой безопасности. Охрана обыскала здание и не обнаружила никаких бомб, так что воскресная программа прошла, хотя и с чувством тревоги.
Угроза взрыва, вероятно, была просто больной шуткой, которая странным образом пародировала само событие. Мы продолжаем выявлять опасности в ИИ и пытаемся исправить обнаруженные ошибки.
Но даже если эксперты не находят конкретной угрозы, ее потенциальная возможность все равно заставляет нас чувствовать себя неспокойно. Мы задаемся вопросом: "А что, если они что-то упустили?".