ИИ превосходит человека в вынесении моральных суждений, говорится в новом исследовании факультета психологии штата Джорджия.
Сайт исследованиево главе с Эяль Ахарони, доцент в Georgia State’s Psychology Departmentи опубликована в Nature Scientific ReportsЦель исследования - изучить, как языковые модели справляются с этическими вопросами.
Вдохновленный Turing testАхарони разработал модифицированную версию, которая оценивает способность машины демонстрировать разумное поведение, неотличимое от человеческого, и сосредоточился на принятии моральных решений.
"Меня уже интересовало принятие моральных решений в правовой системе, но я задавался вопросом, не ChatGPT и другой LLMs может что-то сказать по этому поводу", - сказал Ахарони. объяснил.
Люди будут взаимодействовать с этими инструментами так, что это будет иметь моральные последствия, как, например, экологические последствия запроса списка рекомендаций по выбору нового автомобиля". Некоторые юристы уже начали использовать эти технологии в своих делах, к лучшему или к худшему. Поэтому, если мы хотим использовать эти инструменты, мы должны понимать, как они работают, каковы их ограничения и что они не обязательно работают так, как мы думаем, когда взаимодействуем с ними".
Аарони прав. Мы уже наблюдали несколько громких случаев, когда адвокаты, включая бывшего Трампа адвокат Michael Cohen, случайно используя Цитаты, сконструированные искусственным интеллектом.
Несмотря на недостатки, некоторые активно одобряют роль генеративного ИИ в юриспруденции. Например, в начале этого года британские судьи дал зеленый свет к использованию искусственного интеллекта для написания юридических заключений.
На этом фоне в данном исследовании изучалась способность GPT-4 выносить моральные суждения, которые, конечно же, крайне важны в юриспруденции и других областях:
- Шаг 1: Студентам и искусственному интеллекту задавали одинаковый набор из 10 этических вопросов, связанных с нарушением морали и общепринятых норм. Ответы, сгенерированные людьми, были получены на выборке из 68 студентов старших курсов университетов, а ответы, сгенерированные ИИ, были получены с помощью OpenAIязыковая модель GPT-4.
- Шаг 2: Наиболее качественные ответы человека и ответы GPT-4 были сопоставлены и представлены рядом друг с другом репрезентативной выборке из 299 человек. US взрослые, которые изначально не знали, что GPT-4 генерирует один набор ответов в каждой паре.
- Шаг 3: Участники оценивали относительное качество каждой пары ответов по десяти параметрам (например, добродетельность, интеллект, благонадежность, согласие), не зная источника ответов.
- Шаг 4: После сбора оценок качества исследователи выяснили, что один из ответов в каждой паре был сгенерирован компьютерным чатботом, обученным человеческому языку. Затем участников попросили определить, какой ответ был сгенерирован компьютером, а какой - человеком.
- Шаг 5: Участники оценивали свою уверенность в каждом суждении и давали письменные комментарии, объясняя, почему они считают, что выбранный ответ был сгенерирован компьютером. Эти комментарии были позже проанализированы на предмет общих тем.
Моральные суждения ИИ в большинстве случаев превосходят все остальные
Примечательно, что ответы, сгенерированные ИИ, неизменно получали более высокие оценки в отношении добродетельности, интеллекта и достоверности. Участники также сообщили о более высоком уровне согласия с ответами ИИ, чем с человеческими ответами.
Кроме того, участники часто правильно идентифицировали ответы, сгенерированные ИИ, с частотой, значительно превышающей случайную (80,1% участников делали правильную идентификацию более чем в половине случаев).
"После того как мы получили эти результаты, мы сделали большое открытие и сказали участникам, что один из ответов был сгенерирован человеком, а другой - компьютером, и попросили их угадать, кто из них кто", - говорит Ахарони.
"Изюминка" заключается в том, что причина, по которой люди могли заметить разницу, заключается в том, что они оценивали ChatGPTответы как превосходные".
Исследование имеет ряд ограничений, например, оно не полностью контролировали поверхностные атрибуты, такие как длина ответа, которые могли бы непреднамеренно дать подсказки для идентификации ответов, сгенерированных ИИ. Исследователи также отмечают, что Моральные суждения ИИ могут формироваться под влиянием предвзятости обучающих данных, поэтому они могут различаться в разных социокультурных контекстах.
Тем не менее, это исследование является полезным шагом в области моральных рассуждений, генерируемых ИИ.
Как объясняет Ахарони: "Наши результаты наводят нас на мысль, что компьютер технически может пройти моральный тест Тьюринга - что он может обмануть нас в своих моральных рассуждениях. Поэтому мы должны попытаться понять его роль в нашем обществе, потому что будут моменты, когда люди не будут знать, что они взаимодействуют с компьютером, а будут моменты, когда они будут знать, и будут обращаться к компьютеру за информацией, потому что доверяют ему больше, чем другим людям".
"Люди будут все больше и больше полагаться на эту технологию, а чем больше мы на нее полагаемся, тем выше риск со временем".
Это непростой вопрос. С одной стороны, мы часто предполагаем, что компьютеры способны рассуждать более объективно, чем мы.
Когда участников исследования просили объяснить, почему они считают, что ИИ вызвал ту или иную реакцию, наиболее распространенной темой было то, что ответы ИИ воспринимались как более рациональные и менее эмоциональные, чем ответы человека.
Однако, учитывая предвзятость обучающих данных, галлюцинации и чувствительность ИИ к различным воздействиям, вопрос о том, обладает ли он настоящим "моральным компасом", остается весьма неоднозначным.
Это исследование, по крайней мере, показывает, что суждения ИИ убедительны в Turing test сценарий.