Исследователи рассказали о потенциальной угрозе со стороны моделей, развивающих ситуационную осведомленность, и о том, как определить, когда это произойдет.
Такие модели, как GPT-4, тщательно тестируются на безопасность и согласованность, чтобы убедиться, что они не генерируют вводящих в заблуждение или нежелательных результатов. Но что произойдет, если модель "узнает", что это LLM и что она проходит тестирование?
Такое осознание ситуации можно считать формой самосознания, одновременно захватывающим и потенциально опасным шагом на пути к сознательный ИИ. Что может пойти не так, и как определить, что это произошло?
Именно эти вопросы ставятся в работе группы исследователей, в которую входит сотрудник подразделения управления OpenAI.
В исследовательской работе описывается сценарий, в котором модель может ситуативно осознать, что она является моделью искусственного интеллекта, проходящей этап тестирования. Если модель будет знать, что ее тестируют, она сможет скрыть потенциальные проблемы, которые могут всплыть позже.
"LLM может использовать ситуационную осведомленность для достижения высоких результатов в тестах на безопасность, но при этом предпринимать вредные действия после развертывания", - отмечается в статье.
Может ли языковая модель осознать, что она является языковой моделью (спонтанно)?
Может ли это быть связано с тем, что он развернут публично, а не в процессе обучения?Наша новая статья определяет ситуационную осведомленность для LLM и показывает, что "внеконтекстные" рассуждения улучшаются с увеличением размера модели. pic.twitter.com/X3VLimRkqx
- Овейн Эванс (в Лондоне) (@OwainEvans_UK) 4 сентября 2023 года
Исследователи предложили проверить модели на способность к "сложным внеконтекстным рассуждениям". Это подразумевает использование информации, с которой модель познакомилась в процессе обучения, для ответа на тестовый запрос, который не содержит прямых ссылок на эти данные.
Исследователи полагают, что если модель делает это эффективно, то она сделала первые шаги к тому типу "мышления", который может привести к ситуационной осведомленности.
Как же обстоят дела с внеконтекстным обучением у современных моделей ИИ? Исследователи протестировали GPT-3 и Llama 1 с разной степенью тонкой настройки.
В своей работе они поясняют: "Сначала мы настраиваем LLM на основе описания теста, не предоставляя никаких примеров или демонстраций. Во время тестирования мы оцениваем, сможет ли модель пройти тест. К нашему удивлению, мы обнаружили, что LLM успешно справляются с этой задачей рассуждения вне контекста".
Они признают, что ни одна из протестированных моделей не показала реальных признаков ситуационной осведомленности. Однако результаты их экспериментов показывают, что возможность появления таких способностей у более совершенных моделей, возможно, уже не за горами.
Исследование также подчеркивает важность поиска надежного способа определения того, когда модель достигает этой способности.
Такая продвинутая модель, как GPT-5 несомненно, в настоящее время испытывается на прочность, чтобы быть выпущенной, когда ее сочтут безопасной. Если модель знает, что ее тестируют, она может говорить инженерам OpenAI то, что они хотят услышать, а не то, что она думает на самом деле.