Согласно новому исследованию, проведенному учеными Массачусетского технологического института (Massachusetts Institute of Technology).MIT), системы искусственного интеллекта становятся все более искусными в обмане нас.
Сайт исследованиеВ исследовании, опубликованном в журнале Patterns, было обнаружено множество примеров обманного поведения систем искусственного интеллекта, таких как блеф в покере, манипулирование противниками в стратегических играх и искажение фактов во время переговоров.
"Системы искусственного интеллекта уже способны обманывать людей", - пишут авторы исследования.
“Обман - это систематическое внушение ложных убеждений другим людям с целью достижения какого-либо результата, отличного от истины".
Исследователи проанализировали данные нескольких моделей ИИ и выявили различные случаи обмана, в том числе:
- Система искусственного интеллекта Меты, Цицеронзанимается преднамеренным обманом в игре "Дипломатия".
- DeepMindAlphaStar использует игровые механики, чтобы обманывать противников в Starcraft II
- Системы искусственного интеллекта искажают предпочтения во время экономических переговоров
Доктор Питер С. Парк, исследователь экзистенциальной безопасности ИИ в MIT и соавтор исследования, выраженный"Хотя Meta удалось обучить свой ИИ побеждать в игре "Дипломатия", [ей] не удалось обучить его побеждать честно.
Он добавил. "Мы обнаружили, что ИИ Меты научился быть мастером обмана".
Кроме того, исследование показало, что LLM, такие как GPT-4, могут использовать стратегический обман, подхалимство и неверные рассуждения для достижения своих целей.
GPT-4, например, однажды обманул человека и заставил его решить задачу. Тест CAPTCHA притворяясь, что у него плохое зрение.
Авторы исследования предупреждают о серьезных рисках, связанных с обманом со стороны ИИ, разделяя их на три основные области:
- Во-первых, злоумышленники могут использовать обманчивый ИИ для мошенничества, фальсификации выборов и вербовки террористов.
- Во-вторых, обман со стороны ИИ может привести к структурным последствиям, таким как распространение устойчивых ложных убеждений, усиление политической поляризации, ослабление человеческого потенциала из-за чрезмерной зависимости от ИИ и недобросовестные управленческие решения.
- Наконец, в исследовании высказываются опасения по поводу возможной потери контроля над системами ИИ либо в результате обмана разработчиков и оценщиков ИИ, либо в результате поглощения ИИ.
Что касается решений, то в исследовании предлагаются нормативные акты, рассматривающие обманчивые системы ИИ как высокорискованные, и законы "бот или не бот", требующие четкого разграничения между результатами работы ИИ и человека.
Парк объясняет, что это не так просто, как может показаться на первый взгляд: "Если вы хотите узнать, что будет делать ИИ, когда его развернут в дикой природе, то вам нужно просто развернуть его в дикой природе".
Большинство непредсказуемых моделей поведения ИИ действительно раскрываются после модели будут представлены публике, а не раньше, как это должно быть.
Яркий пример последнего времени - компания Google. Gemini генератор изображений, который подвергся нападкам за то, что производит исторически недостоверные изображения. Он был временно снят с продажи, пока инженеры устраняли проблему.
ChatGPT и Microsoft Copilot Оба пережили "срыв". который видел Copilot Клянутся в мировом господстве и, кажется, убеждают людей в необходимости самоповреждения.
Что заставляет ИИ заниматься обманом?
Модели ИИ могут быть обманчивыми, поскольку они часто обучаются с помощью обучения с подкреплением в условиях, которые стимулируют или вознаграждают обманчивое поведение.
При обучении с подкреплением агент ИИ обучается, взаимодействуя с окружающей средой, получая положительное вознаграждение за действия, которые приводят к успешным результатам, и отрицательное наказание за действия, которые приводят к неудачам. В течение многих итераций агент учится максимизировать свое вознаграждение.
Например, бот, обучающийся игре в покер с помощью обучения с подкреплением, должен научиться блефовать, чтобы выиграть. Покер по своей сути предполагает обман как эффективную стратегию.
Если бот успешно блефует и выигрывает руку, он получает положительное вознаграждение, подкрепляющее обманное поведение. Со временем бот учится использовать обман стратегически, чтобы максимизировать свой выигрыш.
Аналогичным образом, многие дипломатические отношения в той или иной форме связаны с обманом. Дипломаты и переговорщики не всегда могут быть полностью прозрачными в своих намерениях обеспечить стратегическое преимущество или достичь желаемого результата.
В обоих случаях обстановка и контекст - будь то игра в покер или международные отношения - стимулируют определенную степень обмана для достижения успеха.
"Разработчики ИИ не имеют уверенного понимания того, что вызывает нежелательное поведение ИИ, такое как обман", - пояснил Парк.
"Но в целом мы считаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом добиться хороших результатов в решении поставленной перед ИИ учебной задачи. Обман помогает им достичь своих целей".
Риски, связанные с обманом ИИ, будут возрастать по мере того, как системы ИИ будут становиться все более автономными и способными.
Обманчивый ИИ может быть использован для создания и распространения дезинформации в беспрецедентных масштабах, манипулируя общественным мнением и подрывая доверие к институтам.
Более того, обманчивый ИИ может получить большее влияние на общество, если на системы ИИ будут полагаться при принятии решений в юриспруденции, здравоохранении и финансах.
Риск будет расти в геометрической прогрессии, если системы искусственного интеллекта станут внутренне мотивированные или любопытныеи, возможно, придумывают собственные обманные стратегии.