Исследователи из Meaning Alignment Institute предложили новый подход - Moral Graph Elicitation (MGE) - для приведения систем искусственного интеллекта в соответствие с человеческими ценностями.
По мере того как искусственный интеллект становится все более совершенным и интегрируется в нашу повседневную жизнь, первостепенное значение приобретает обеспечение справедливого отношения к каждому человеку. Тем не менее, в настоящее времяего исследование утверждает, что одно лишь соответствие ИИ целям пользователя не гарантирует безопасности.
"Системы искусственного интеллекта будут применяться в условиях, когда слепое следование намерениям оператора может нанести вред в качестве побочного продукта. Наиболее наглядно это можно увидеть в средах с динамикой конкуренции, таких как политические кампании или управление финансовыми активами", - утверждают исследователи.
Это связано с тем, что модели ИИ призваны служить пользователю. Если пользователь направляет модель в неблаговидных целях, то, стремясь служить пользователю, модель может обойти ограждения и подчиниться.
Одно из решений - "пропитать" ИИ серией значений, к которым он обращается каждый раз, когда ему поступает запрос.
Вопрос в том, откуда берутся эти ценности? И могут ли они справедливо представлять интересы людей?
"Что такое человеческие ценности, и как нам соответствовать им?"
Очень рады выпустить наш новый документ о согласовании ценностей, написанный в соавторстве с @ryan_t_lowe и финансируется @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Джо Эдельман (@edelwax) 29 марта 2024 года
Чтобы решить эти проблемы, исследователи предложили согласовать ИИ с более глубоким представлением человеческих ценностей с помощью MGE.
Метод MGE включает в себя два ключевых компонента: карты ценностей и моральный граф.
Они образуют цель выравнивания для обучения моделей машинного обучения.
- Карточки с ценностями отражают то, что важно для человека в конкретной ситуации. Они состоят из "конститутивных политик внимания" (КПА), которые представляют собой то, на что человек обращает внимание, когда делает значимый выбор. Например, давая совет другу, человек может сосредоточиться на понимании его эмоций, предложить полезные ресурсы или рассмотреть потенциальные результаты различных вариантов.
- График морали Визуально отображает отношения между картами ценностей, указывая, какие ценности более проницательны или применимы в данном контексте. Чтобы построить граф морали, участники сравнивают различные карты ценностей, определяя, какие из них, по их мнению, предлагают более мудрое руководство для конкретной ситуации. Это позволяет использовать коллективную мудрость участников для определения наиболее сильных и общепризнанных ценностей для каждого контекста.
Чтобы проверить метод MGE, исследователи провели исследование с участием 500 американцев, которые использовали этот процесс для изучения трех спорных тем: абортов, воспитания детей и оружия, использованного во время беспорядков в Капитолии 6 января.
Результаты оказались многообещающими: 89,1% участников чувствовали себя хорошо представленными в процессе, а 89% считали, что итоговый график морали был справедливым, даже если их значение не было признано самым мудрым.
В исследовании также описываются шесть критериев, которыми должна обладать цель выравнивания, чтобы формировать поведение модели в соответствии с человеческими ценностями: она должна быть мелкозернистой, обобщаемой, масштабируемой, надежной, легитимной и проверяемой. Исследователи утверждают, что моральный граф, созданный MGE, хорошо соответствует этим критериям.
В данном исследовании предлагается подход, аналогичный антроповскому Коллективный конституционный ИИ, которая также занимается краудсорсингом ценностей для выравнивания ИИ.
Однако автор исследования Джо Эдельман заявил на сайте X: "Наш подход, MGE, превосходит альтернативные варианты, такие как CCAI от @anthropic, по легитимности в конкретном исследовании и обеспечивает устойчивость к идеологической риторике. 89% даже согласны с тем, что победившие ценности были справедливыми, даже если их собственная ценность не победила!"
Наш подход, MGE, превосходит такие альтернативы, как CCAI, на @anthropic на легитимность в конкретном исследовании и обеспечивает устойчивость к идеологической риторике.
89% даже согласны с тем, что значения выигрышей были справедливыми, даже если их собственное значение не выиграло! pic.twitter.com/sGgLCUtwzN
- Джо Эдельман (@edelwax) 29 марта 2024 года
Ограничения
Существуют ограничения для подходов к выравниванию ИИ, которые используют краудсорсинг ценностей от населения.
Например, инакомыслие было неотъемлемой частью процесса принятия решений в обществе на протяжении веков, и история показала, что большинство часто может принять расхожие взгляды меньшинства. В качестве примера можно привести теорию эволюции Дарвина, борьбу за отмену рабства и предоставление женщинам права голоса.
Кроме того, несмотря на демократичность прямого участия общественности, оно может привести к популизму, когда большинство может превалировать над мнением меньшинства или игнорировать советы экспертов.
Еще одна проблема заключается в балансе между глобальными или универсальными и местными или релятивистскими культурными ценностями. Общепринятые принципы в одной культуре или регионе могут вызывать споры в другой.
Конституции ИИ могут укреплять западные ценности, потенциально разрушая взгляды и идеи тех, кто находится на периферии.
Хотя новое исследование признает ограничения и необходимость дальнейших разработок, оно предлагает еще одну стратегию создания систем искусственного интеллекта, соответствующих человеческим ценностям.
Каждая попытка имеет значение, если централизованный ИИ хочет в будущем служить всем справедливо.