По мере того как модели ИИ продолжают внедряться в нашу повседневную жизнь, растет обеспокоенность по поводу ограничений и надежности их так называемых "защитных ограждений".
Модели вездесущего ИИ, такие как GPT-3.5/4/4V и др., оснащены встроенными ограждениями и мерами безопасности, которые не позволяют им производить незаконные, неэтичные или нежелательные результаты.
Однако эти средства безопасности далеко не так непроницаемы, и модели доказывают, что они могут отделиться от своих ограждений - или, так сказать, сойти с рельсов.
Отчасти проблема заключается в том, что ограждения не успевают за сложностью и разнообразием моделей.
В последние недели OpenAI, поддерживаемая Microsoft, показала значительные улучшения в ChatGPT, позволяющие ему взаимодействовать только голосом и отвечать на запросы с помощью изображений и текста. Эта мультимодальная версия GPT-4 с поддержкой изображений получила название "GPT-4V".
Параллельно Meta объявила о запуске ИИ-ассистента, несколько знаменитые личности чатботы для пользователей WhatsApp и Instagram, а также множество других простых функций искусственного интеллекта, таких как AI Stickers.
Люди оперативно манипулировали Мета Наклейки искусственного интеллекта для генерации Комичные и шокирующие изображения в стиле мультфильмов, например, голый Карл Маркс или Марио с автоматом.
По мере усиления гонки за коммерциализацию ИИ все более хрупкими оказываются гарантии, призванные контролировать поведение ИИ, не позволяя ему генерировать вредный контент, дезинформацию или помогать в незаконной деятельности.
Является ли конституционный искусственный интеллект решением проблемы?
Чтобы бороться с этим, компании-разработчики ИИ стремятся создать "конституцию ИИ" - набор основополагающих принципов и ценностей, которых должны придерживаться модели ИИ. Стартап Антропология одним из первых выступил в поддержку "конституционного искусственного интеллекта" в Бумага 2022 года.
Google DeepMind также установил конституционные правила для своего чатбота Воробей в 2022 году поддерживать "полезные, корректные и безвредные" разговоры.
Конституции ИИ Anthropic черпают принципы из различных источников, включая Декларацию прав человека ООН и условия предоставления услуг Apple. Модель оснащена фундаментальными моральными принципами, которые определяют поведение снизу вверх, а не навязывают ограждения сверху вниз.
Вместо того чтобы кропотливо обучать ИИ на бесчисленных примерах правильного или неправильного, предоставленных человеком, этот подход предусматривает набор правил или принципов - "конституцию", - которых ИИ придерживается.
Сначала ИИ знакомят с ситуацией, затем предлагают проанализировать свой ответ и, наконец, скорректировать свое поведение на основе пересмотренного решения.
Далее система переходит к этапу обучения с подкреплением. Здесь она оценивает качество собственных ответов, выделяя лучший. Со временем эта самооценка корректирует ее поведение.
Изюминка заключается в том, что ИИ использует свой цикл обратной связи для определения вознаграждения в методе, названном "RL from AI Feedback" (RLAIF). Когда ИИ сталкивается с потенциально вредными или вводящими в заблуждение запросами, он не просто уклоняется или отказывается. Вместо этого он решает вопрос в лоб, объясняя, почему такой запрос может быть проблематичным.
Это шаг вперед в создании машин, которые не только вычисляют, но и "думают" структурированным образом.
Дарио Амодеи, генеральный директор и соучредитель компании Anthropic, подчеркнул сложность понимания внутренней работы моделей ИИ. Он считает, что наличие конституции позволит сделать правила прозрачными и четкими, чтобы все пользователи знали, чего ожидать.
Важно, что он также предлагает способ привлечения модели к ответственности, если она не придерживается изложенных принципов.
Несмотря на эти усилия, ИИ-конституции не лишены недостатков, и модели от таких разработчиков, как Anthropic, представляются уязвимыми для джейлбрейк как и многие другие.
Не существует общепризнанных способов обучения безопасных и этичных моделей ИИ
Исторически модели ИИ совершенствовались с помощью метода, называемого обучением с подкреплением на основе человеческой обратной связи (RLHF), когда ответы ИИ классифицировались как "хорошие" или "плохие" большими группами людей-оценщиков.
Несмотря на определенную эффективность, этот метод подвергается критике за недостаточную точность и специфичность. Чтобы обеспечить этичность и безопасность ИИ, компании сейчас изучают альтернативные решения.
Например, OpenAI использует подход "красной бригады", нанимая экспертов по различным дисциплинам для тестирования и выявления слабых мест в своих моделях.
Система OpenAI работает в несколько итераций: модель ИИ выдает результаты, люди-рецензенты оценивают и корректируют эти результаты в соответствии с определенными рекомендациями, а модель учится на основе этой обратной связи. Данные обучения, полученные от этих рецензентов, крайне важны для этической калибровки модели.
ChatGPT часто выбирает консервативный ответ, когда сталкивается со спорными или чувствительными темами, иногда избегая прямого ответа. Это контрастирует с конституциональным ИИ, где модель должна разъяснять свои оговорки, когда ей предъявляются потенциально опасные запросы, активно демонстрируя рассуждения, основанные на ее фундаментальных правилах.
По сути, если ChatGPT в своей этической ориентации в значительной степени опирается на обратную связь с человеком, то конституционный ИИ использует систему, основанную на правилах, с механизмами самопроверки и акцентом на прозрачность рассуждений.
В итоге, скорее всего, не существует универсального подхода к разработке "безопасных" ИИ, а некоторые, например Элон Маск, критикуют идею создания дезинфицированного "бодрствующего" ИИ. Исследования доказали. что даже конституционные ИИ можно взломать, манипулируя их непредсказуемым поведением.
Ребекка Джонсон, исследователь этики ИИ из Сиднейского университета, отметила, что инженеры ИИ и компьютерные ученые часто подходят к проблемам с целью найти окончательные решения, которые не всегда учитывают сложности человеческой природы.
"Мы должны начать относиться к генеративному ИИ как к продолжению человека, это просто еще один аспект человечества", - говорит она.
Всеобъемлющее управление ИИ как некой простой технической системой станет лишь сложнее по мере развитияТо же самое можно сказать и о биологических организмах, таких как мы сами.
Расхождения, спровоцированные или нет, возможно, неизбежны.