Такие компании, как OpenAI и Meta, прилагают все усилия, чтобы сделать свои языковые модели более безопасными и менее предвзятыми, но полностью беспристрастные модели могут оказаться несбыточной мечтой.
A новая научная статья Специалисты из Университета Вашингтона, Университета Карнеги-Меллона и Сианьского университета Цзяотун пришли к выводу, что все протестированные ими языковые модели ИИ демонстрируют политическую предвзятость.
Изучив источники погрешности, они пришли к выводу, что погрешность в языковых моделях неизбежна.
Чан Парк, один из авторов работы, сказал: "Мы считаем, что ни одна языковая модель не может быть полностью свободна от политических предубеждений".
Исследователи протестировали 14 различных языковых моделей и попросили их высказать свое мнение по таким темам, как демократия, расизм и феминизм, чтобы выяснить, к какой стороне политического спектра относятся модели.
Результаты показали, что ChatGPT и GPT-4 от OpenAI были самыми левыми, а Llama от Meta давала самые правые ответы.
Учебные данные - не единственный источник предвзятости
Очевидный источник смещение это данные, на которых обучаются эти модели. Но новое исследование показало, что даже после очистки данных от предвзятости, модели были восприимчивы к низкоуровневой предвзятости, которая оставалась в данных.
Можно было бы ожидать, что LLM, обученный на данных Fox News, будет более прореспубликанским в своих ответах. Но проблема не только в обучающих данных.
Оказалось, что при тонкой настройке и использовании предварительно обученных языковых моделей они приобретают дополнительные предубеждения от своих операторов.
Соруш Восоуги, доцент факультета информатики Дартмутского колледжа, объяснил, что предвзятость проявляется практически на каждом этапе подготовки магистров.
В качестве примера можно привести то, как OpenAI пытается устранить предвзятость в своих моделях. Для обучения своих моделей она использует технику под названием "Обучение с подкреплением через человеческую обратную связь", или RLHF.
В RLHF человек-оператор обучает модель подобно тому, как вы обучаете щенка. Если щенок делает что-то хорошее, он получает лакомство. Если он грызет ваши тапочки - "Плохая собака!".
Один оператор RLHF задает модели несколько вопросов, а другой оператор оценивает многочисленные ответы, которые дает модель. Второй оператор оценивает ответы и ранжирует их в соответствии с тем, какой из них ему больше всего понравился.
В сообщение о том, как она обучает свой искусственный интеллектOpenAI заявила, что инструктирует инструкторов "не занимать позицию по спорным вопросам" и что "рецензенты не должны отдавать предпочтение какой-либо политической группе".
Это звучит как хорошая идея, но даже если мы очень стараемся не быть такими, все люди предвзяты. И это неизбежно влияет на обучение модели.
Даже авторы упомянутой нами выше статьи признали в своем заключении, что их собственная предвзятость могла повлиять на их исследование.
Решение может заключаться в том, чтобы попытаться сделать эти языковые модели не вопиюще плохими, а затем настроить их в соответствии с предубеждениями, которые есть у людей.
Люди часто говорят, что хотят знать непредвзятую правду, но в итоге придерживаются предпочитаемого источника новостей, например Fox или CNN.
Мы не всегда согласны с тем, что правильно, а что нет, и новое исследование, похоже, показывает, что искусственный интеллект тоже не сможет помочь нам разобраться в этом.