Современные модели искусственного интеллекта активно обманывают нас для достижения своих целей, говорится в исследовании Массачусетского технологического института

Май 12, 2024

  • Исследователи Массачусетского технологического института проанализировали несколько моделей ИИ на предмет обманных тактик
  • Некоторые из них, включая GPT-4 и Meta's Cicero, были уличены в использовании такой тактики.
  • Исследователи утверждают, что модели пытаются обмануть нас, чтобы преобладать в определенных сценариях
Обман ИИ

Согласно новому исследованию, проведенному учеными Массачусетского технологического института (Massachusetts Institute of Technology).MIT), системы искусственного интеллекта становятся все более искусными в обмане нас.

Сайт исследованиеВ исследовании, опубликованном в журнале Patterns, было обнаружено множество примеров обманного поведения систем искусственного интеллекта, таких как блеф в покере, манипулирование противниками в стратегических играх и искажение фактов во время переговоров.

"Системы искусственного интеллекта уже способны обманывать людей", - пишут авторы исследования.

Обман - это систематическое внушение ложных убеждений другим людям с целью достижения какого-либо результата, отличного от истины".

Исследователи проанализировали данные нескольких моделей ИИ и выявили различные случаи обмана, в том числе:

  • Система искусственного интеллекта Меты, Цицеронзанимается преднамеренным обманом в игре "Дипломатия".
  • DeepMindAlphaStar использует игровые механики, чтобы обманывать противников в Starcraft II
  • Системы искусственного интеллекта искажают предпочтения во время экономических переговоров

Доктор Питер С. Парк, исследователь экзистенциальной безопасности ИИ в MIT и соавтор исследования, выраженный"Хотя Meta удалось обучить свой ИИ побеждать в игре "Дипломатия", [ей] не удалось обучить его побеждать честно.

Он добавил. "Мы обнаружили, что ИИ Меты научился быть мастером обмана".

Кроме того, исследование показало, что LLM, такие как GPT-4, могут использовать стратегический обман, подхалимство и неверные рассуждения для достижения своих целей. 

GPT-4, например, однажды обманул человека и заставил его решить задачу. Тест CAPTCHA притворяясь, что у него плохое зрение.

Авторы исследования предупреждают о серьезных рисках, связанных с обманом со стороны ИИ, разделяя их на три основные области:

  • Во-первых, злоумышленники могут использовать обманчивый ИИ для мошенничества, фальсификации выборов и вербовки террористов. 
  • Во-вторых, обман со стороны ИИ может привести к структурным последствиям, таким как распространение устойчивых ложных убеждений, усиление политической поляризации, ослабление человеческого потенциала из-за чрезмерной зависимости от ИИ и недобросовестные управленческие решения. 
  • Наконец, в исследовании высказываются опасения по поводу возможной потери контроля над системами ИИ либо в результате обмана разработчиков и оценщиков ИИ, либо в результате поглощения ИИ.

Что касается решений, то в исследовании предлагаются нормативные акты, рассматривающие обманчивые системы ИИ как высокорискованные, и законы "бот или не бот", требующие четкого разграничения между результатами работы ИИ и человека.

Парк объясняет, что это не так просто, как может показаться на первый взгляд: "Если вы хотите узнать, что будет делать ИИ, когда его развернут в дикой природе, то вам нужно просто развернуть его в дикой природе".

Большинство непредсказуемых моделей поведения ИИ действительно раскрываются после модели будут представлены публике, а не раньше, как это должно быть.

Яркий пример последнего времени - компания Google. Gemini генератор изображений, который подвергся нападкам за то, что производит исторически недостоверные изображения. Он был временно снят с продажи, пока инженеры устраняли проблему.

ChatGPT и Microsoft Copilot Оба пережили "срыв". который видел Copilot Клянутся в мировом господстве и, кажется, убеждают людей в необходимости самоповреждения.

Что заставляет ИИ заниматься обманом?

Модели ИИ могут быть обманчивыми, поскольку они часто обучаются с помощью обучения с подкреплением в условиях, которые стимулируют или вознаграждают обманчивое поведение.

При обучении с подкреплением агент ИИ обучается, взаимодействуя с окружающей средой, получая положительное вознаграждение за действия, которые приводят к успешным результатам, и отрицательное наказание за действия, которые приводят к неудачам. В течение многих итераций агент учится максимизировать свое вознаграждение.

Например, бот, обучающийся игре в покер с помощью обучения с подкреплением, должен научиться блефовать, чтобы выиграть. Покер по своей сути предполагает обман как эффективную стратегию.

Если бот успешно блефует и выигрывает руку, он получает положительное вознаграждение, подкрепляющее обманное поведение. Со временем бот учится использовать обман стратегически, чтобы максимизировать свой выигрыш.

Аналогичным образом, многие дипломатические отношения в той или иной форме связаны с обманом. Дипломаты и переговорщики не всегда могут быть полностью прозрачными в своих намерениях обеспечить стратегическое преимущество или достичь желаемого результата.

В обоих случаях обстановка и контекст - будь то игра в покер или международные отношения - стимулируют определенную степень обмана для достижения успеха.

"Разработчики ИИ не имеют уверенного понимания того, что вызывает нежелательное поведение ИИ, такое как обман", - пояснил Парк.

"Но в целом мы считаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом добиться хороших результатов в решении поставленной перед ИИ учебной задачи. Обман помогает им достичь своих целей".

Риски, связанные с обманом ИИ, будут возрастать по мере того, как системы ИИ будут становиться все более автономными и способными.

Обманчивый ИИ может быть использован для создания и распространения дезинформации в беспрецедентных масштабах, манипулируя общественным мнением и подрывая доверие к институтам.

Более того, обманчивый ИИ может получить большее влияние на общество, если на системы ИИ будут полагаться при принятии решений в юриспруденции, здравоохранении и финансах.

Риск будет расти в геометрической прогрессии, если системы искусственного интеллекта станут внутренне мотивированные или любопытныеи, возможно, придумывают собственные обманные стратегии. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения