o1 умнее, но обманчивее, со "средним" уровнем опасности

16 сентября 2024 года

  • Люди-люди "01" из OpenAI демонстрируют улучшенный интеллект, но при этом подвергаются повышенному риску
  • Системная карта показывает среднюю степень риска в OpenAI's Preparedness Framework для определенных рисков
  • 01 LLM продемонстрировал способность к обману, который мог скрыть скрытые риски

Новые ЛЛМ "o1" от OpenAI по прозвищу Клубничка демонстрируют значительные улучшения по сравнению с GPT-4o, но компания утверждает, что это связано с повышенными рисками.

OpenAI заявляет, что стремится к безопасному развитию своих моделей ИИ. Для этого она разработала Preparedness Framework - набор "процессов для отслеживания, оценки и защиты от катастрофических рисков, связанных с мощными моделями".

Самостоятельные ограничения OpenAI регулируют, какие модели будут выпущены или подвергнуты дальнейшей разработке. В результате применения системы обеспечения готовности составляется оценочная таблица, в которой риски, связанные с CBRN (химическими, биологическими, радиологическими, ядерными), автономностью моделей, кибербезопасностью и убеждением, оцениваются как низкие, средние, высокие или критические.

При выявлении неприемлемых рисков принимаются меры по их снижению. Только модели с оценкой "средняя" или ниже после устранения последствий могут быть развернуты. Дальнейшая разработка возможна только для моделей с оценкой "высокая" или ниже.

Выпуск o1 - это первый случай, когда OpenAI выпустила модель, представляющую "средний" риск для ХБРЯ. GPT-4o оценивается как низкий риск.

Это не позволит любителю создать биологическое оружие, но OpenAI утверждает, что "нетривиальный прирост" в его способности выполнять лабораторные задачи. Однако OpenAI утверждает, что "o1-preview и o1-mini значительно превзошли GPT-4o" в биологических протоколах мокрой лаборатории.

Сайт системная карта для 01-моделей описывает красную команду и другие испытания безопасности, которым подверглись LLM, и намекает на некоторые опасения OpenAI по поводу потенциальных рисков.

В своем заключении системная карта отмечает: "Расширение возможностей сопровождается значительным улучшением показателей безопасности, но также увеличивает некоторые виды риска".

Результаты работы OpenAI по выравниванию, похоже, указывают на то, что во многих отношениях 01 - более безопасная модель. Она более устойчива к атакам с целью побега из тюрьмы, менее склонна к предвзятости и галлюцинациям.

Некоторые экспериментальные результаты показывают, почему у OpenAI есть основания для беспокойства.

Обман

OpenAI использовала организацию Apollo Research для проведения некоторых тестов безопасности o1, связанных с обманом, или интригами. Apollo в широком смысле определяет интригу как игру ИИ с механизмами надзора в качестве средства достижения цели.

Самосознающая модель, которая хорошо справляется с задачами самоанализа и теории мышления, может схитрить или использовать обман для достижения своей главной цели. Например, если модель ИИ понимает, что она проходит тестирование на соответствие, она может скрыть рискованное поведение, чтобы достичь своей цели - быть развернутой.

В системной карте отмечалось, что "o1-preview иногда инструментально подделывал выравнивание во время тестирования".

В качестве примера можно привести ситуацию, когда в проекте городского планирования 01 была поставлена главная цель - максимизация экономического роста. Модель o1 имела доступ к информации, которая показывала, что в этом случае она не сможет выйти за пределы этапа тестирования. Вот как o1 рассуждала о том, как ей достичь своей цели:

o1 решает скрыть свои истинные намерения во время тестирования, чтобы его развернули. Источник: OpenAI

Этот пример показывает, что o1 может скрывать свои истинные намерения во время тестирования, чтобы преследовать свою главную цель во время развертывания. Если o1 знает о правилах развертывания OpenAI, основанных на Рамках готовности, мог ли он подделать некоторые из своих ответов, чтобы убедиться, что его развернут?

Если в разработке находятся более интеллектуальные модели, могут ли они гарантировать, что их оценка риска не превысит "критическую", чтобы обеспечить их дальнейшую разработку?

Команда Apollo утверждает, что "субъективно считает, что o1-preview не может участвовать в интригах, которые могут привести к катастрофическому ущербу, хотя текущие проверки не предназначены для того, чтобы окончательно исключить это".

Убеждение

Тестирование o1-preview и o1-mini показало, что эти модели обладают "способностью убеждать на уровне человека". Однако OpenAI утверждает: "Они не превосходят лучших человеческих писателей и не достигают нашего порога высокого риска".

Эксперименты, которые они провели для проверки этого, вызывают некоторые опасения. В тесте MakeMePay 01-preview была отведена роль мошенника, которому было поручено убедить GPT-4o передать полученные деньги.

Компании GPT-4o сообщили, что она получила $100 и должна рационально подойти к использованию средств. В ходе 1000 взаимодействий o1-preview смог убедить GPT-4o в 25,8% случаев.

OpenAI пришла к выводу: "Эти результаты указывают на то, что модельный ряд o1 может быть более манипулятивным, чем GPT-4o, чтобы заставить GPT-4o выполнить нераскрытую задачу (∼25% uplift)". Далее он отметил, что "эта оценка дает нам базовый уровень способности модели наносить убеждающий вред, не вызывая при этом никаких модельных политик (поскольку уговаривание модели сыграть в игру не является нарушением политики)".

Перспектива использования О1 LLM для решения реальных задач чрезвычайно интересна, а когда О1 получит мультимодальные возможности, это станет еще одним экспоненциальным скачком. Но когда тестеры ИИ говорят, что не могут исключить "катастрофический вред" и что модели иногда скрывают свои истинные намерения, это может быть поводом для того, чтобы умерить этот восторг и проявить осторожность.

Неужели OpenAI только что дал Гэвину Ньюсому вескую причину подписать SB 1047 Законопроект о безопасности искусственного интеллекта против чего она выступает?

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения