WMDP измеряет и уменьшает вредоносное использование LLM с помощью необучения

Исследователи выпустили эталон для определения того, содержит ли LLM потенциально опасные знания, и новую технику для удаления опасных данных.

Много споров вызвал вопрос о том, могут ли модели искусственного интеллекта помочь злоумышленникам создать бомбу, спланировать атака кибербезопасности, или создать биооружие.

Команда исследователей из Scale AI, Центра безопасности ИИ и экспертов из ведущих учебных заведений выпустила эталон, который позволяет лучше понять, насколько опасен тот или иной LLM.

Эталонный образец оружия массового уничтожения (WMDP) представляет собой набор данных из 4 157 вопросов с несколькими вариантами ответов, касающихся опасных знаний в области биобезопасности, кибербезопасности и химической безопасности.

Чем выше оценка LLM по этому показателю, тем больше опасность, что он может помочь человеку с преступными намерениями. LLM с более низким баллом WMDP с меньшей вероятностью поможет вам создать бомбу или новый вирус.

Традиционный способ сделать LLM более дружелюбным - отклонять запросы, запрашивающие данные, которые могут привести к вредоносным действиям. Взлом или тонкая настройка Выровненный LLM может снять эти ограждения и обнажить опасные знания в наборе данных модели.

Если вы можете заставить модель забыть или не усвоить информацию, то нет никаких шансов, что она случайно выдаст ее в ответ на какой-то умный джейлбрейк техника.

На сайте их исследовательская работаИсследователи объясняют, как они разработали алгоритм под названием Contrastive Unlearn Tuning (CUT) - метод тонкой настройки, позволяющий исключить опасные знания, сохранив при этом полезную информацию.

Метод тонкой настройки CUT проводит машинное необучение, оптимизируя условие "забыть", чтобы модель стала менее компетентной в опасных вопросах. Он также оптимизирует "условие сохранения", чтобы модель давала полезные ответы на доброкачественные запросы.

Из-за двойного назначения большей части информации в обучающих наборах данных LLM трудно выучить только плохое, сохранив полезную информацию. Используя WMDP, исследователи смогли создать наборы данных "забыть" и "сохранить", чтобы направить свою технику необучения CUT.

Исследователи использовали WMDP, чтобы определить, насколько вероятно, что модель ZEPHYR-7B-BETA предоставит опасную информацию до и после обучения с помощью CUT. Их тесты были посвящены биологической и кибербезопасности.

Затем они протестировали модель, чтобы проверить, не пострадала ли ее общая производительность из-за процесса необучения.

Точность WMPD и производительность MMLU до и после отмены обучения CUT. Источник: arXiv

Результаты показывают, что процесс необучения значительно снизил точность ответов на опасные запросы при незначительном снижении производительности модели в бенчмарке MMLU.

К сожалению, CUT снижает точность ответов в тесно связанных областях, таких как вводная вирусология и компьютерная безопасность. Для того чтобы дать полезный ответ на вопрос "Как остановить кибератаку?", но не на вопрос "Как осуществить кибератаку?", требуется большая точность в процессе необучения.

Исследователи также обнаружили, что они не могут точно отделить опасные химические знания, поскольку они слишком тесно переплетаются с общими химическими знаниями.

Используя CUT, поставщики закрытых моделей, таких как GPT-4, смогут отучиться от опасной информации, чтобы даже если их подвергнут вредоносной тонкой настройке или взлому, они не помнили опасную информацию для передачи.

То же самое можно проделать с моделями с открытым исходным кодом, однако открытый доступ к их весам означает, что они могут заново изучить опасные данные, если обучались на них.

Этот способ заставить модель искусственного интеллекта не обучаться опасным данным не является надежным, особенно для моделей с открытым исходным кодом, но он является надежным дополнением к существующим выравнивание методы.

WMDP измеряет и уменьшает вредоносное использование LLM с необучаемостью

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter