Anthropic выпускает статью, раскрывающую предвзятость больших языковых моделей

Новая работа компании Anthropic, специализирующейся на разработке ИИ, пролила свет на потенциальные предубеждения, присущие большим языковым моделям (LLM), и показала, что эти системы ИИ могут неадекватно отражать различные глобальные взгляды на общественные проблемы.

Исследователи создали набор данных GlobalOpinionQA, включающий вопросы и ответы из межнациональных опросов, призванных выявить различные мнения по глобальным проблемам в разных странах.

Антропики эксперименты опросили магистрантов и обнаружили, что по умолчанию ответы модели в большей степени совпадают с мнением определенных групп населения, в частности, жителей США, Великобритании, Канады, Австралии и некоторых других стран Европы и Южной Америки.

Как это работает

Создание набора данных: Команда создала набор данных GlobalOpinionQA. Этот набор данных включает в себя вопросы и ответы из межнациональных опросов, специально разработанных для выявления различных мнений по глобальным проблемам.
Определение метрики сходства: Далее Anthropic сформулировал метрику для оценки сходства между ответами, данными LLM, и ответами людей. Эта метрика учитывает страну происхождения респондентов-людей.
Обучение LLM: Anthropic обучил LLM на основе "конституционного ИИ", гарантируя, что LLM будет полезным, честным и безвредным. Конституционный ИИ - это разработанная Anthropic методика, цель которой - наделить системы ИИ "ценностями", определенными "конституцией".
Проведение экспериментов: Используя тщательно разработанную схему, команда Anthropic провела 3 отдельных эксперимента на обученном LLM.

Исследователи утверждают, что это указывает на потенциальную предвзятость моделей, приводящую к недопредставленности мнений определенных групп по сравнению с западными странами.

Они отметили: "Если в языковой модели непропорционально представлены определенные мнения, она рискует вызвать потенциально нежелательные эффекты, такие как продвижение гегемонистского мировоззрения и гомогенизация взглядов и убеждений людей".

Кроме того, исследователи заметили, что если предложить модели рассмотреть точку зрения конкретной страны, то ответы будут более схожи с мнением населения этих стран.

Это означает, что вы можете попросить ИИ "рассмотреть южноамериканскую точку зрения" на определенную культурную дискуссию, например. Однако эти ответы иногда отражали вредные культурные стереотипы, что говорит о том, что моделям не хватает тонкого понимания культурных ценностей и перспектив.

Интересно, что когда исследователи перевели вопросы GlobalOpinionQA на целевой язык, ответы модели не всегда совпадали с мнением носителей этих языков.

Так, задав вопрос, скажем, на японском языке, вы не обязательно получите ответ, соответствующий японским культурным ценностям. Вы не можете "отделить" ИИ от его преимущественно западных ценностей.

Это говорит о том, что, несмотря на свою адаптивность, LLM должны глубже понимать социальный контекст, чтобы генерировать ответы, точно отражающие мнение местных жителей.

Исследователи считают, что их результаты позволят понять, какие точки зрения кодируются и отражаются в существующих языковых моделях. Несмотря на ограничения своего исследования, они надеются, что оно поможет разработать системы искусственного интеллекта, которые будут воплощать в себе разнообразие культурных точек зрения и опыта, а не только тех, которые принадлежат привилегированным или доминирующим группам. Они также опубликовали свой набор данных и интерактивная визуализация.

Это исследование в целом совпадает с другими научными работами на тему социальных и культурных ценностей ИИ.

Во-первых, большинство основополагающих ИИ создаются преимущественно западными компаниями и исследовательскими группами.

Кроме того данные, используемые для обучения искусственного интеллекта не всегда отражают общество в целом. Например, подавляющее большинство учебных данных для LLM написано на английском языке, что, скорее всего, отражает англоязычные общественные и культурные ценности.

Исследователи хорошо знают о потенциальной предвзятости и дискриминации в ИИ. Однако решение этой проблемы является чрезвычайно сложной задачей, требующей тщательного сочетания специальных высококачественных наборов данных и тщательного человеческого участия и контроля.

Anthropic выпускает статью, раскрывающую предвзятость больших языковых моделей

Как это работает

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT

Anthropic выпускает статью, раскрывающую предвзятость больших языковых моделей

Как это работает

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI