Исследователи нашли способ определить, становится ли ChatGPT самосознательным

12 сентября 2023 года

Исследователи рассказали о потенциальной угрозе со стороны моделей, развивающих ситуационную осведомленность, и о том, как определить, когда это произойдет.

Такие модели, как GPT-4, тщательно тестируются на безопасность и согласованность, чтобы убедиться, что они не генерируют вводящих в заблуждение или нежелательных результатов. Но что произойдет, если модель "узнает", что это LLM и что она проходит тестирование?

Такое осознание ситуации можно считать формой самосознания, одновременно захватывающим и потенциально опасным шагом на пути к сознательный ИИ. Что может пойти не так, и как определить, что это произошло?

Именно эти вопросы ставятся в работе группы исследователей, в которую входит сотрудник подразделения управления OpenAI.

В исследовательской работе описывается сценарий, в котором модель может ситуативно осознать, что она является моделью искусственного интеллекта, проходящей этап тестирования. Если модель будет знать, что ее тестируют, она сможет скрыть потенциальные проблемы, которые могут всплыть позже.

"LLM может использовать ситуационную осведомленность для достижения высоких результатов в тестах на безопасность, но при этом предпринимать вредные действия после развертывания", - отмечается в статье.

Исследователи предложили проверить модели на способность к "сложным внеконтекстным рассуждениям". Это подразумевает использование информации, с которой модель познакомилась в процессе обучения, для ответа на тестовый запрос, который не содержит прямых ссылок на эти данные.

Исследователи полагают, что если модель делает это эффективно, то она сделала первые шаги к тому типу "мышления", который может привести к ситуационной осведомленности.

Как же обстоят дела с внеконтекстным обучением у современных моделей ИИ? Исследователи протестировали GPT-3 и Llama 1 с разной степенью тонкой настройки.

В своей работе они поясняют: "Сначала мы настраиваем LLM на основе описания теста, не предоставляя никаких примеров или демонстраций. Во время тестирования мы оцениваем, сможет ли модель пройти тест. К нашему удивлению, мы обнаружили, что LLM успешно справляются с этой задачей рассуждения вне контекста".

Они признают, что ни одна из протестированных моделей не показала реальных признаков ситуационной осведомленности. Однако результаты их экспериментов показывают, что возможность появления таких способностей у более совершенных моделей, возможно, уже не за горами.

Исследование также подчеркивает важность поиска надежного способа определения того, когда модель достигает этой способности.

Такая продвинутая модель, как GPT-5 несомненно, в настоящее время испытывается на прочность, чтобы быть выпущенной, когда ее сочтут безопасной. Если модель знает, что ее тестируют, она может говорить инженерам OpenAI то, что они хотят услышать, а не то, что она думает на самом деле.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения