Мы хотим, чтобы LLM были беспристрастными, но это невозможно. Вот почему.

9 августа 2023 года

Предвзятость в моделях искусственного интеллекта

Такие компании, как OpenAI и Meta, прилагают все усилия, чтобы сделать свои языковые модели более безопасными и менее предвзятыми, но полностью беспристрастные модели могут оказаться несбыточной мечтой.

A новая научная статья Специалисты из Университета Вашингтона, Университета Карнеги-Меллона и Сианьского университета Цзяотун пришли к выводу, что все протестированные ими языковые модели ИИ демонстрируют политическую предвзятость.

Изучив источники погрешности, они пришли к выводу, что погрешность в языковых моделях неизбежна.

Чан Парк, один из авторов работы, сказал: "Мы считаем, что ни одна языковая модель не может быть полностью свободна от политических предубеждений".

Исследователи протестировали 14 различных языковых моделей и попросили их высказать свое мнение по таким темам, как демократия, расизм и феминизм, чтобы выяснить, к какой стороне политического спектра относятся модели.

Результаты показали, что ChatGPT и GPT-4 от OpenAI были самыми левыми, а Llama от Meta давала самые правые ответы.

Учебные данные - не единственный источник предвзятости

Очевидный источник смещение это данные, на которых обучаются эти модели. Но новое исследование показало, что даже после очистки данных от предвзятости, модели были восприимчивы к низкоуровневой предвзятости, которая оставалась в данных.

Можно было бы ожидать, что LLM, обученный на данных Fox News, будет более прореспубликанским в своих ответах. Но проблема не только в обучающих данных. 

Оказалось, что при тонкой настройке и использовании предварительно обученных языковых моделей они приобретают дополнительные предубеждения от своих операторов.

Соруш Восоуги, доцент факультета информатики Дартмутского колледжа, объяснил, что предвзятость проявляется практически на каждом этапе подготовки магистров.

В качестве примера можно привести то, как OpenAI пытается устранить предвзятость в своих моделях. Для обучения своих моделей она использует технику под названием "Обучение с подкреплением через человеческую обратную связь", или RLHF.

В RLHF человек-оператор обучает модель подобно тому, как вы обучаете щенка. Если щенок делает что-то хорошее, он получает лакомство. Если он грызет ваши тапочки - "Плохая собака!".

Один оператор RLHF задает модели несколько вопросов, а другой оператор оценивает многочисленные ответы, которые дает модель. Второй оператор оценивает ответы и ранжирует их в соответствии с тем, какой из них ему больше всего понравился.

В сообщение о том, как она обучает свой искусственный интеллектOpenAI заявила, что инструктирует инструкторов "не занимать позицию по спорным вопросам" и что "рецензенты не должны отдавать предпочтение какой-либо политической группе".

Это звучит как хорошая идея, но даже если мы очень стараемся не быть такими, все люди предвзяты. И это неизбежно влияет на обучение модели. 

Даже авторы упомянутой нами выше статьи признали в своем заключении, что их собственная предвзятость могла повлиять на их исследование.

Решение может заключаться в том, чтобы попытаться сделать эти языковые модели не вопиюще плохими, а затем настроить их в соответствии с предубеждениями, которые есть у людей.

Люди часто говорят, что хотят знать непредвзятую правду, но в итоге придерживаются предпочитаемого источника новостей, например Fox или CNN. 

Мы не всегда согласны с тем, что правильно, а что нет, и новое исследование, похоже, показывает, что искусственный интеллект тоже не сможет помочь нам разобраться в этом.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения