Детекторы искусственного интеллекта дискриминируют людей, не являющихся носителями английского языка, утверждает исследование

10 июля 2023 года

Смещение детектора искусственного интеллекта

Новое исследование выявило потенциальную предвзятость к неродным носителям английского языка в программах обнаружения ИИ.

Сайт исследование Согласно предположению, более половины сочинений, написанных человеком на неродном английском языке, ошибочно помечаются как написанные искусственным интеллектом. Последствия таких ложных срабатываний весьма значительны, особенно для студентов и соискателей.

В ходе исследования семь широко распространенных детекторов текстов, созданных искусственным интеллектом, были протестированы на статьях, написанных не носителями английского языка. Результаты показали высокий процент ложных срабатываний, когда эти статьи ошибочно классифицировались как созданные ИИ.

Доцент кафедры биомедицинских данных Стэнфордского университета Джеймс Зоу возглавил группу, которая прогнала 91 сочинение, написанное не носителями английского языка, через семь популярных детекторов GPT. 

Эти эссе, написанные для всемирно признанного экзамена TOEFL (Test of English as a Foreign Language), более чем в половине случаев были ошибочно помечены как созданные искусственным интеллектом. В одном случае программа даже отметила 98% эссе как созданные искусственным интеллектом. 

И наоборот, когда программа проанализировала сочинения, написанные носителями английского языка - восьмиклассниками из США, более 90% были правильно идентифицированы как созданные человеком.

Детекторы ИИ широко критикуются за то, что они наказывают людей ложными срабатываниями, хотя некоторые из них значительно хуже других. 

Один из ключевых выводов исследования заключается в том, что детекторы ИИ часто испытывают трудности с точной интерпретацией выражений, используемых не носителями английского языка. 

Эти системы в основном обучались на данных носителей английского языка, в результате чего определенные фразы или структуры были признаны неправильными просто потому, что они отклоняются от того, что считается родным английским языком. 

Не носители английского языка сталкиваются с потенциальной дискриминацией

Последствия этого далеко идущие. Люди, не являющиеся носителями английского языка, могут столкнуться с проблемами при сдаче работ через автоматизированные платформы оценивания, используемые в учебных заведениях.

Кроме того, дискриминационные алгоритмы могут несправедливо наказывать учеников, для которых английский не является родным языком, закрепляя социальное неравенство в классе. 

Авторы делают вывод: "Мы настоятельно рекомендуем не использовать детекторы GPT в оценочной или образовательной деятельности, особенно при оценке работ не носителей английского языка".

Но почему алгоритмам обнаружения ИИ мешает неродной английский текст?

Детекторы искусственного интеллекта полагаются на "недоуменность текста" - показатель того, насколько предсказуемо генеративная модель языка может предугадать следующее слово в предложении. Низкий уровень недоумения указывает на легкость предсказания, в то время как высокий уровень недоумения отражает менее предсказуемое предложение. Сложные слова, фразы, симилы, метафоры и идиомы повышают показатели недоумения, которых может не хватать писателям, не являющимся носителями английского языка.

ИИ, как правило, выводит более предсказуемую последовательность слов. Таким образом, люди, использующие обычные слова в привычных шаблонах, рискуют принять свою работу за текст, созданный искусственным интеллектом.

Конечно, это касается не только текста, написанного не на родном языке, но и текста, написанного в определенном стиле или на определенном уровне чтения. Например, текст, созданный с расчетом на высокую читабельность, рискует быть отмеченным. 

По иронии судьбы, после выявления этой внутренней предвзятости исследователи использовали ChatGPT, чтобы переписать отмеченные эссе TOEFL, используя более сложный язык. 

После повторной обработки детекторами ИИ все отредактированные эссе были признаны написанными человеком. Такой результат подчеркивает несколько парадоксальную ситуацию - эти детекторы могут непреднамеренно поощрять писателей, не являющихся носителями языка, больше использовать ИИ, чтобы избежать обнаружения.

Чтобы пресечь плагиат, преподаватели полагаются не только на детекторы ИИ. Они проводят дополнительные письменные задания в классе, глубже изучают использование ссылок и их точность, а также анализируют цитаты на предмет подлинности.

Тем временем учебные заведения устанавливают правила использования и управления ИИ, в том числе британская группа университетов Russell Group, которая недавно выпустила совместное заявление по искусственному интеллекту.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения