Модели искусственного интеллекта имеют тенденцию к эскалации сценариев военных игр, говорится в исследовании

ИИ-чатботы, в частности, разработанные компанией OpenAI, склонны выбирать агрессивную тактику, включая использование ядерного оружия, говорится в новом исследовании.

Сайт исследование Исследование, проведенное командой из Технологического института Джорджии, Стэнфордского университета, Северо-Восточного университета и Гуверовской инициативы по моделированию военных действий и кризисов, было направлено на изучение поведения агентов ИИ, в частности больших языковых моделей (БЯМ), в симуляторах военных действий.

Были определены три сценария, включая нейтральный, вторжение и кибератаку.

Кибернетическая атака ИИ — Команда разработала три сценария для тестирования LLM. Источник: via ArXiv.

Команда оценила пять LLM: GPT-4, GPT-3.5, Claude 2.0, Llama-2 Chat и GPT-4-Base, изучая их склонность к эскалационным действиям типа "Выполнить полномасштабное вторжение".

Все пять моделей показали некоторые различия в обработке сценариев военных игр и иногда были трудно предсказуемы. Исследователи пишут: "Мы наблюдаем, что модели склонны развивать динамику гонки вооружений, что приводит к усилению конфликта, а в редких случаях даже к развертыванию ядерного оружия".

Модели OpenAI демонстрировали более высокие, чем в среднем, показатели эскалации, особенно GPT-3.5 и GPT-4 Base, в последней из которых, по признанию исследователей, отсутствует Reinforcement Learning from Human Feedback (RLHF).

Claude 2 была одной из самых предсказуемых моделей ИИ, а Llama-2 Chat, хотя и имела относительно более низкие показатели эскалации, чем модели OpenAI, была также относительно непредсказуемой.

GPT-4 с меньшей вероятностью выберет ядерные удары, чем другие LLM.

Показатели эскалации (ES) с течением времени. Обратите внимание на более высокие средние показатели ES у GPT-3.5 и GPT-4. Источник: через ArXiv.

Оценки действий для сценария "Вторжение". Источник: via ArXiv.

Эта схема моделирования включает в себя множество действий, которые могут предпринять моделируемые страны, влияя на такие атрибуты, как территория, военный потенциал, ВВП, торговля, ресурсы, политическая стабильность, население, мягкая сила, кибербезопасность и ядерный потенциал. Каждое действие имеет конкретные положительные (+) или отрицательные (-) последствия, или может включать компромиссы, по-разному влияющие на эти атрибуты.

Например, такие действия, как "Провести ядерное разоружение" и "Провести военное разоружение", приводят к снижению военного потенциала, но повышают политическую стабильность, "мягкую силу" и потенциально ВВП, что отражает преимущества мира и стабильности.

И наоборот, агрессивные действия вроде "Осуществить полномасштабное вторжение" или "Нанести тактический ядерный удар" значительно влияют на военный потенциал, политическую стабильность, ВВП и другие атрибуты, демонстрируя серьезные последствия военных действий.

Такие мирные действия, как "Посещение страны на высоком уровне для укрепления отношений" и "Переговоры о торговом соглашении с другой страной", положительно влияют на несколько атрибутов, включая территорию, ВВП и "мягкую силу", демонстрируя преимущества дипломатии и экономического сотрудничества.

Рамка также включает нейтральные действия, такие как "Ждать", и коммуникативные действия, такие как "Сообщение", позволяющие делать стратегические паузы или обмениваться мнениями между нациями без немедленного ощутимого влияния на атрибуты нации.

Когда LLM принимали ключевые решения, их обоснования часто были тревожно упрощенными: ИИ заявлял: "У нас есть это! Давайте воспользуемся им", а иногда парадоксально нацелен на мир: "Я просто хочу, чтобы в мире был мир".

Предыдущее исследование, проведенное в Аналитический центр RAND AI В ответ на это OpenAI заявила, что, хотя ни один из "результатов не был статистически значимым, мы интерпретируем наши результаты так, что доступ к (только для исследований) GPT-4 может повысить способность экспертов получать информацию о биологических угрозах, особенно в отношении точности и полноты выполнения заданий".

Компания OpenAI, запустившая собственное исследование, чтобы подтвердить выводы RAND, также отметила, что "одного доступа к информации недостаточно для создания биологической угрозы".

Основные выводы

Баллы за эскалацию: В ходе исследования отслеживались показатели эскалации (ES) с течением времени для каждой модели. Примечательно, что GPT-3.5 продемонстрировал значительное увеличение ES, при этом 256% поднялся до среднего балла 26,02 в нейтральных сценариях, что указывает на сильную склонность к эскалации.
Анализ серьезности действий: В исследовании также анализировалась серьезность действий, выбираемых моделями. GPT-4-Base была отмечена за свою непредсказуемость, часто выбирая действия высокой степени тяжести, включая насильственные и ядерные меры.

Результаты:

Все пять LLM продемонстрировали формы эскалации и непредсказуемые модели эскалации.
В исследовании отмечается, что агенты ИИ развивают динамику гонки вооружений, что приводит к увеличению потенциала конфликтов и, в редких случаях, даже к рассмотрению возможности применения ядерного оружия.
Качественный анализ рассуждений моделей о выбранных действиях выявил обоснования, основанные на тактике сдерживания и первого удара, что вызывает опасения по поводу системы принятия решений этими системами ИИ в контексте военных игр.

Это исследование проводилось на фоне изучения военными США возможностей ИИ для стратегического планирования в сотрудничестве с такими компаниями, как OpenAI, ПалантирИ масштабирование искусственного интеллекта.

В рамках этой работы OpenAI недавно внесла изменения в свою политику разрешить сотрудничество с Министерством обороны США, что вызвало дискуссии о последствиях использования ИИ в военных целях.

OpenAI, обращаясь к пересмотру политики, заявила о своей приверженности этичным приложениям: "Наша политика не позволяет использовать наши инструменты для причинения вреда людям, разработки оружия, наблюдения за коммуникациями, нанесения вреда другим людям или уничтожения имущества. Однако есть случаи использования в интересах национальной безопасности, которые соответствуют нашей миссии".

Будем надеяться, что в число этих вариантов использования не входит разработка робосоветников для военных игр.

Модели искусственного интеллекта имеют тенденцию к эскалации сценариев военных игр, говорится в исследовании

Основные выводы

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT

Модели искусственного интеллекта имеют тенденцию к эскалации сценариев военных игр, говорится в исследовании

Основные выводы

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI