ИИ-агенты выполняют сложные целевые задачи при ограниченном контроле. Группа исследователей предложила три меры, которые могут повысить прозрачность работы агентов ИИ и сделать их более безопасными.
Большинство людей представляют себе искусственный интеллект в виде чат-бота, например ChatGPT. Вы задаете ему текст, и он генерирует ответ. По-настоящему захватывающим развитием ИИ является его использование в качестве агента - системы, которая может автономно выполнять задачи для достижения конечной цели.
Простой пример - Кролик R1 Устройство, которое может использовать ИИ в качестве агента для просмотра веб-страниц и бронирования авиабилетов для пользователя. Эти агенты имеют ограниченный контроль над тем, как они выполняют свои задачи и с какими другими агентами они взаимодействуют для достижения своих целей.
Исследователи изучили потенциальные риски, которые представляют собой агенты ИИ, а также способы снижения этих рисков путем повышения прозрачности информации о том, где, почему, как и кем используются определенные агенты ИИ.
Авторы бумага В работе принимали участие представители Квебекского института искусственного интеллекта, Гарвардского университета, Гарвардской школы права, Оксфордского университета, Фонда кооперативного искусственного интеллекта, Кембриджского университета и Университета Торонто.
Риски агентов искусственного интеллекта
Если агенту ИИ поставлена цель, которую нужно оптимизировать, он может срезать этические или юридические углы, чтобы достичь своей цели, или действовать так, что это может нанести существенный вред, если рядом не будет человека.
Исследователи выделили пять основных рисков, связанных с плохо контролируемыми агентами ИИ.
- Вредоносное использование - Малоопытный злоумышленник может использовать высокоэффективного агента для автоматизации сквозных схем киберпреступлений или разработки вредоносных программ. биологический или химические инструменты.
- Чрезмерная зависимость и бесправие - Чрезмерное доверие к ИИ-агентам для автоматизации сложных задач в ситуациях с высокими ставками, таких как финансовые или юридические системы, может привести к серьезным последствиям.
- Отсроченное и диффузное воздействие - Если ИИ ставит перед собой долгосрочные задачи, последствия принимаемых им неверных решений могут стать очевидными лишь спустя долгое время после его развертывания. Отсроченное воздействие также может привести к тому, что ущерб распространится по всей организации или сообществу до того, как он будет обнаружен.
- Многоагентные риски - Агент ИИ может быть протестирован как единая система, но при взаимодействии нескольких агентов могут возникнуть непредвиденные риски.
- Субагенты - Агент может решить, что для достижения своей цели ему необходимо создать субагентов самого себя. Он может вызывать несколько своих копий или настраивать другого агента. Не зная, создал ли агент субагентов, обнаружить вредоносное поведение сложно.
Как увеличить видимость
Нам нужны структуры управления, устанавливающие руководящие принципы, обеспечивающие подотчетность ключевых заинтересованных сторон. Для этого необходимо обеспечить большую прозрачность развернутых агентов ИИ.
Исследователи предложили три способа, как это можно сделать.
- Идентификаторы агентов - Если агент идентифицирует себя, это позволит людям, организациям или другим агентам управлять своим взаимодействием с ним. Это также поможет связать действие с конкретным агентом и организацией, которая его произвела или развернула.
- Мониторинг в режиме реального времени - Мониторинг поведения агента в режиме реального времени позволит разработчику немедленно заметить нарушение четких правил или проследить за взаимодействием агента с другими агентами. Также можно отметить агента, который создает несколько своих экземпляров, превышает финансовые лимиты или использует вычислительные ресурсы сверх определенного лимита.
- Журналы активности - В реальности вред, причиняемый агентами, будет обнаружен постфактум, а не предотвращен. Журналы действий, фиксирующие определенные входы и выходы агента, будут полезны для определения того, как все пошло не так и что нужно исправить.
Если эти меры будут реализованы, это поможет снизить риски, которые представляют собой агенты ИИ. Однако реализация мониторинга в режиме реального времени и ведение журналов активности без нарушения законов о конфиденциальности может оказаться непростой задачей.
Мы определенно уходим от взаимодействия с приложениями, поскольку агенты ИИ все чаще действуют самостоятельно, выполняя задания, которые мы им задаем. Но есть и риски. В документе отмечается, что для управления этими рисками потребуются политическая воля, социотехническая инфраструктура и общественное влияние. Улучшение видимости того, как именно работают агенты ИИ, имеет решающее значение для достижения этой цели.